Ch 8: Observability & Debugging

arrow_back Curriculum Under the Hood →

Ch 8 — Observability & Debugging

High-Level Overview 8 Steps

Click Next to begin exploring how to observe, debug, and measure your AI agents in production.

Step - / 8

Problem Why Observability Matters Agents are non-deterministic black boxes

psychology

Agent Runs

LLM calls, tool use, retrieval, branching

produces

visibility_off

Black Box

No visibility into why it chose that path

need

monitoring

Observability

Traces, metrics, logs, cost tracking

account_tree Traces & Runs — the core primitive of LLM observability

Core Concept Traces & Runs Hierarchical recording of every step

account_tree

Trace

Root-level record of one agent invocation

contains

call_split

Runs (Spans)

chain, llm, tool, retriever — nested tree

captures

data_object

Run Data

inputs, outputs, tokens, latency, cost

Platform LangSmith LangChain's integrated observability platform

toggle_on

Enable Tracing

Set env vars — automatic for LangChain

sends to

cloud_upload

LangSmith API

Collects traces, runs, metadata

view in

dashboard

Studio UI

Inspect traces, debug, run experiments

payments Token & Cost Tracking — know what every agent run costs

Metrics Token & Cost Tracking Per-run and aggregated cost visibility

token

Token Counts

prompt_tokens, completion_tokens, total

priced

attach_money

Cost per Run

Automatic for known models, manual for custom

rolled up

bar_chart

Dashboards

Cost by model, user, feature, thread

Quality Evaluations & Scoring Measuring agent quality systematically

dataset

Datasets

Curated input/expected-output pairs

run against

science

Experiments

Batch-run agent over dataset, collect outputs

scored by

rate_review

Evaluators

LLM-as-Judge, heuristic, human annotation

lock_open Langfuse — open-source observability alternative

Open Source Langfuse Self-hostable, MIT-licensed LLM observability

hub

Langfuse

Traces, spans, generations, cost, scores

via

code

@observe()

Python decorator — minimal code changes

settings_ethernet

OpenTelemetry

Standard OTEL backend via /api/public/otel

Debug Debugging Agent Failures Practical strategies for finding and fixing issues

Inspect Trace

Find the failing run in the tree

check

input

Inputs / Outputs

Was the prompt right? Was the output wrong?

replay

Replay & Fix

Edit prompt in Studio, re-run, compare

Landscape Observability Landscape Comparing the major platforms

cloud

LangSmith

Managed, deep LangChain integration

lock_open

Langfuse

Open-source, self-host, OTEL native

local_fire_department

Phoenix / Arize

OTEL-native, evals, open-source core