Bonus-5 · Agent 开发原理手册

把 Agent 开发从概念到代码、从单 Agent 到多 Agent、从框架对比到工业架构讲透,作为学习路径与系统化复习材料。配套阅读:Bonus-2(RAG/Agent 实战)、Bonus-3(推理优化)、Bonus-4(Context Length)。

0. 三句话先讲清

Agent = LLM(大脑) + Tools(手) + Memory(记忆) + Loop(感知-决策-行动循环)。
所有 Agent 框架的"底层算法"都是 ReAct: Thought → Action → Observation → Thought → ...。框架之间的差异是调度、状态管理、协作方式,不是算法本身。
工业级 Agent 的难点不在于"让 LLM 调用工具",而在于幻觉控制 + 错误恢复 + 成本 + 可观测性 + 安全沙箱。会用 LangChain 不等于会做 Agent。

1. Agent 的定义与边界

1.1 什么算 Agent,什么不算?

形态	是否 Agent	为什么
`llm.complete(prompt)` 单次调用	否	没有循环,没有决策
Prompt chain (固定 N 步流水线)	否 (是 Workflow)	步骤固定,无动态决策
LLM + RAG retriever (1 retrieve + 1 generate)	否 (是 RAG)	没有"是否继续 retrieve"的判断
LLM + 工具,循环到自己说停	是 Agent	满足 Loop + Decision + Action
LLM + 工具,最多调用 1 次,然后必停	弱 Agent (Single-step tool use)	介于 chain 和 agent 之间

核心判别:模型自己决定什么时候停(Final Answer / 没有 Action / 达到 max_steps)。

1.2 Workflow vs Agent —— Anthropic 经典分类

Anthropic 的 "Building Effective Agents" 把 LLM 系统分两类:

Workflow (流水线)	Agent (自主体)
代码主导,LLM 是 step 之一	LLM 主导,代码是 tool 集合
流程可预测、可绘 DAG	流程动态、长尾难绘
例:翻译流水线、SQL 生成 + 校验 + 执行	例:Cursor agent、Claude Code、Devin
成本可控、可测试	成本不可控、难 deterministic

面试金句:"绝大多数生产场景需要的是 Workflow 不是 Agent。先用 Workflow 解决,只有当步骤无法预先确定时再升级到 Agent。"

2. ReAct — Agent 的"汇编语言"

2.1 原始论文与核心思想

ReAct: Synergizing Reasoning and Acting in Language Models (Yao et al., 2022)

核心洞察:让模型显式输出 reasoning trace(Thought),再输出 Action,比让它隐式推理后直接 Action 准确率显著提升。

Thought_t: 思考当前应该做什么
Action_t:  tool_name(args)         ← 解析执行
Observation_t: <tool result>       ← 喂回 prompt
Thought_t+1: 综合观察,决定下一步
...
Final Answer: <最终答案>

2.2 ReAct 在数学上的形式化

把对话历史定义为:

h_t = [s_0, a_0, o_0, s_1, a_1, o_1, ..., s_t]

其中 s_i 是 Thought,a_i 是 Action,o_i 是 Observation。

每一步 LLM 是一个条件分布:

p(s_{t+1}, a_{t+1} | h_t) = LLM(h_t)

执行 action 得到环境的 deterministic 函数:

o_{t+1} = ENV(a_{t+1})

→ 整个 Agent 是一个 POMDP(Partially Observable Markov Decision Process)的 policy,LLM 充当 policy network,只是没有显式训练 policy gradient —— 行为靠预训练 + 少量 finetune(GRPO/ORPO 等可以专门训 agent policy)。

2.3 为什么 ReAct 有效?三个机制

Verbalization grounding:Thought 是显式输出的自然语言,模型把推理"摊到台面上",降低 hallucination
Tool 作为外部 oracle:tool result 是确定性的(calculator/datetime/search),给模型提供 ground truth
Self-correction:观察到 Action 失败后,Thought 可以重新规划

2.4 ReAct 在生产中的两种实现

实现 A:Prompt 驱动(模型直接输出文本)

SYSTEM = """你是 ReAct agent. 可用工具: ...
输出格式:
Thought: <思考>
Action: tool_name(<args>)
Observation: <由工具填充>
...
Final Answer: <最终答案>"""

while step < max_steps:
    resp = llm.chat.completions.create(..., stop=["Observation:"])
    out = resp.choices[0].message.content
    if "Final Answer:" in out: return parse_final(out)
    action = parse_action(out)
    obs = execute_tool(action)
    messages.append({"role": "user", "content": f"Observation: {obs}"})

适用:任意模型,但解析脆弱(正则 / 括号配对)。Bonus-2 的 agent_demo.py 就是这套。

实现 B:Function Calling 驱动(模型直出 JSON)

tools = [
    {"type": "function", "function": {"name": "calculator", "parameters": {...}}},
    {"type": "function", "function": {"name": "search", "parameters": {...}}},
]

while step < max_steps:
    resp = llm.chat.completions.create(messages=messages, tools=tools, tool_choice="auto")
    msg = resp.choices[0].message
    if not msg.tool_calls:                  # 模型不再调用工具
        return msg.content
    for tc in msg.tool_calls:
        result = execute_tool(tc.function.name, json.loads(tc.function.arguments))
        messages.append({"role": "tool", "tool_call_id": tc.id, "content": result})

适用:OpenAI / Anthropic / Qwen2.5+ / Mistral 等支持 function calling 的模型。强结构化、解析零成本、生产首选。

3. Tool Use 三种范式

范式	工具表达	优势	劣势	代表
A. ReAct prompting	Free-form text + 正则	任意模型	解析脆弱	早期 LangChain
B. Function Calling	JSON Schema	结构化、稳定	依赖模型微调 + 推理框架支持	OpenAI / Claude / Qwen2.5
C. Code-as-Action	模型直接写 Python	表达力最强(组合工具)	沙箱安全风险	smolagents、Devin

3.1 Function Calling 的内部机制

模型层:

在 SFT 阶段用大量 <tool_call>{...}</tool_call> 样本训练
推理时根据 tools schema 引导生成符合 schema 的 JSON

推理框架层(vLLM 例):

vllm serve Qwen/Qwen2.5-7B-Instruct \
  --enable-auto-tool-choice \
  --tool-call-parser hermes      # 不同模型用不同 parser: hermes / llama3_json / mistral

--tool-call-parser 决定怎么把模型输出文本解析回 OpenAI ChatCompletion 格式的 tool_calls 字段。

3.2 Tool Schema 设计要点(OpenAI / Anthropic 对比)

OpenAI / Qwen / Mistral 都遵循 OpenAI 的 function 定义:

{
  "type": "function",
  "function": {
    "name": "search_flights",
    "description": "查询航班。仅在用户给出明确日期和出发到达城市时调用。",
    "parameters": {
      "type": "object",
      "properties": {
        "from": {"type": "string", "description": "出发城市"},
        "to":   {"type": "string", "description": "到达城市"},
        "date": {"type": "string", "format": "date"}
      },
      "required": ["from", "to", "date"]
    }
  }
}

Anthropic 的 tool use schema 略有差异(input_schema 替代 parameters,顶层不嵌套 function),但实质相同。

好用的 schema 五条原则:

description 写"什么时候该调用",不是"工具做什么"
参数命名走业务语义(booking_id),别用 arg1
用 enum / format 约束(enum: ["draft","review","published"])
required 列尽量短,可选参数给默认值
错误信息要"模型可读"(Error: from 必须是 IATA 码,你给的是 'beijing'),触发 self-correction

3.3 Code-as-Action 的崛起

smolagents (HuggingFace) 把 Action 定义为"写一段 Python 代码":

Thought: 我需要先查时间,再计算两个数。
Code:
```python
now = datetime.now()
result = calculator("3 * 4 + 5")
print(f"Time: {now}, Result: {result}")


**优势**:
- 组合工具(一段代码里调多个 tool)
- 控制流(if/for/try)由代码处理,不需要 agent loop
- 错误恢复(try/except)交给沙箱

**劣势**:
- 必须在沙箱里执行(否则任意代码执行 = RCE)
- 调试难度高(代码生成错误时 stack trace 复杂)

工业级 Code-as-Action 沙箱:**E2B、Daytona、Modal、Pyodide**。

### 3.4 三种范式的选择

模型支持 function calling (OpenAI/Claude/Qwen2.5+) → B 模型不支持但有强 instruction following → A 任务需要复杂组合 / 数据处理 / 控制流 → C (Code-as-Action)


---

## 4. Memory / State 管理

### 4.1 五种 Memory 类型(认知科学借用)

| 类型 | 描述 | LLM Agent 中的对应 |
| --- | --- | --- |
| **Working memory** | 当前对话上下文 | LLM context window |
| **Short-term episodic** | 最近几次交互 | conversation history (slide window) |
| **Long-term episodic** | 历史交互记录 | vector DB(query 时检索) |
| **Semantic memory** | 事实/知识 | RAG knowledge base |
| **Procedural memory** | "怎么做"的技能 | Tool library + skill prompts |

### 4.2 Conversation Memory 的工程实现

#### A. Buffer Memory(简单)
```python
messages.append(new_message)
if total_tokens(messages) > max_tokens:
    messages = messages[-N:]   # 保留最近 N 条

B. Summary Memory(中等)

if total_tokens(messages) > threshold:
    summary = llm.summarize(messages[:-K])
    messages = [{"role": "system", "content": summary}, *messages[-K:]]

C. Vector Memory(高级)

def get_relevant_history(query, k=5):
    return vector_db.search(query, k=k)
messages = system_prompt + get_relevant_history(query) + [user_msg]

D. Hierarchical Memory(MemGPT 风格)

L1: Working context (in prompt)
L2: Recall storage (recent, in DB)
L3: Archive (vector DB, by similarity)
L4: External (function call to retrieve)

LLM 自己决定从 L2/L3/L4 拉什么进 L1。

4.3 三种存储后端的分工

后端	角色	典型实现
Context window	working memory,最热	直接在 prompt 中
Vector store	semantic / episodic 召回	Chroma / Qdrant / Milvus
KV store / RDB	结构化 state,session 元数据	Redis / Postgres

KV/RDB 存的是"可枚举字段"(用户 ID、todo 列表、订单状态);vector store 存的是"模糊召回"(历史对话片段、知识库条目);context window 留给当前一步所需的最小信息。

4.4 State 持久化

Agent 不应该把所有状态写进 prompt,关键状态应该外部化:

# 不推荐:state 全在 prompt 里
messages.append({"role": "system", "content": f"Current todo list: {json.dumps(todos)}"})

# 推荐:state 在外部,工具读写
@tool
def get_todos() -> list: return db.get_todos()
@tool
def add_todo(item: str): db.add(item)

面试金句:"Agent 的 state 应该用'外部可读写'的方式管理,而不是塞进 prompt。否则 context 爆炸 + 状态不一致。"

5. Planning 范式

5.1 五种 Planning 方法对比

方法	思想	适用	代价
Chain-of-Thought (CoT)	单次输出全部 reasoning steps	简单任务	1× LLM call
ReAct	Step-by-step,每步可调工具	需要工具的任务	N× LLM call
Plan-and-Execute	先生成全计划,再逐步执行	任务步骤清晰	1 plan + N exec
ReWOO	Plan 输出含 dependency 的 DAG,可并行执行	多步任务可并行	1 plan + 并行 exec
Tree-of-Thought (ToT)	同时探索多个推理分支,backtrack	搜索类(数学/编程)	M × N call (昂贵)
Reflexion	失败后让模型反思,记录到 memory,下次避免	长程任务	多 episode 学习

5.2 Plan-and-Execute 详解

User: 帮我订下周三北京到上海的机票,优先东方航空,价格 < 1500

Plan (LLM 一次性生成):
  1. search_flights(from="北京", to="上海", date="2026-06-04", airline="东方航空")
  2. filter price < 1500
  3. book_flight(flight_id)
  4. notify_user(booking_info)

Execute (逐步执行 + 中间结果代入):
  step 1 → results = [...]
  step 2 → filtered = [...]
  step 3 → booking = {...}
  step 4 → done

优势:Plan 阶段一次性 think hard,Execute 阶段 cheap;DAG 可并行。劣势:Plan 错了整个 chain 都歪。

LangGraph 把这个模式做成 first-class:StateGraph 显式定义节点和边。

5.3 Reflexion — Self-improving Agent

Episode 1: Agent 失败 → 把 Trace 喂给 reflector LLM → 生成 "lesson learned"
Lesson: "下次遇到 X 不要用 Y 工具,应该先用 Z 工具确认"
Episode 2: 把 lesson 放进 system prompt → Agent 更聪明

面试常考:这跟 RLHF 的区别?

RLHF 修改模型权重,需要梯度更新
Reflexion 通过 prompt 注入"教训",zero gradient

6. Multi-Agent 协作模式

6.1 五种典型拓扑

模式	拓扑	适用	代表框架
Sequential / Pipeline	A → B → C	流水线任务	LangGraph
Hierarchical / Supervisor	Orchestrator + Workers	任务分解	AutoGen, CrewAI
Parallel	Orchestrator → [A, B, C] → Merge	独立子任务并行	LangGraph
Debate / Multi-turn discussion	A ↔ B ↔ C 多轮	创意 / 决策	AutoGen
Group Chat	共享会话,Agent 自己决定何时说话	复杂协作	AutoGen GroupChat

6.2 何时用 Multi-Agent vs 单 Agent + 多工具?

信号	Multi-Agent
不同 Agent 需要不同的 system prompt / 角色	是
不同 Agent 需要不同的工具集(隔离工具池)	是
任务需要专精能力(coder / reviewer / planner)	是
只是"调用更多工具"	否,单 Agent + 多工具更简单
需要并行执行	看情况,单 Agent 也可以并行 tool calls

Anthropic 经验之谈:大多数"multi-agent"场景其实可以用单 agent + 良好的 system prompt 实现,multi-agent 引入的复杂度和 latency 往往得不偿失。

6.3 Multi-Agent 的工程陷阱

Context 爆炸:每个 sub-agent 都拷贝一份历史,token 用量 N 倍
协作幻觉:Agent A 告诉 Agent B 一个错误事实,B 信以为真
死循环:A 让 B 做,B 让 A 做
责任不清:出错时不知道是谁的锅(没 trace 几乎调不动)

防御性设计:

显式 Orchestrator(避免点对点通信)
共享 state 用结构化数据,不要纯自然语言
每个 sub-agent 独立 max_steps,总预算上限
必须有 trace ID 串起所有调用

7. Agent 框架横向对比

7.1 主流框架矩阵

框架	抽象层	范式	学习曲线	适用
LangChain	高,无所不包	Chain + Agent + 一切	高(API 不稳)	快速原型,Python 后端
LangGraph	中,StateGraph	显式状态机	中	复杂多 agent / cyclic flow
LlamaIndex	中,文档为中心	RAG + Query Engine	中	文档 QA / Knowledge Agent
AutoGen (MS)	中,对话为中心	Multi-agent conversation	中	角色协作场景
Semantic Kernel (MS)	中,Plugin / Planner	Plugin + Planner 模式	中	.NET / Java 体系内集成
CrewAI	低,任务为中心	Sequential / Hierarchical Crews	低	业务流程
smolagents (HF)	低,Code-as-Action	CodeAgent / ToolCallingAgent	低	"让模型直接写 Python"
OpenAI Agents SDK	低,handoff 模型	Sub-agent handoff	低	OpenAI/Anthropic API 直接用
Pydantic-AI	中,Type 强约束	Schema-first agent	中	生产 API,结构化输出
Atomic Agents	低,IO Schema	Strict input/output schema	低	极简结构化
MCP (Anthropic)	协议层,跨进程	Server-Client 工具协议	中	工具复用 / 跨产品

7.2 LangChain 的功过

优点:

生态最大,Document loader / Vector DB / LLM provider integration 都有
prototype 最快

痛点:

API 不稳(0.0 → 0.1 → 0.2 → 0.3 多次大重构)
抽象过度(LCEL / Runnable / Chain 太多概念)
生产环境调试困难(error trace 跨多层装饰器)

业内实情:prototype 用 LangChain,production 自己写或用 LangGraph。

7.3 LangGraph 的"对症下药"

LangGraph 解决了 LangChain 的 cyclic flow 问题:

from langgraph.graph import StateGraph, END

class AgentState(TypedDict):
    messages: list
    iteration: int

def llm_node(state):
    resp = llm.invoke(state["messages"])
    return {"messages": state["messages"] + [resp]}

def tool_node(state):
    tool_result = execute_tool(state["messages"][-1])
    return {"messages": state["messages"] + [tool_result]}

def should_continue(state):
    if "Final Answer" in state["messages"][-1].content: return END
    if state["iteration"] > 10: return END
    return "tool"

g = StateGraph(AgentState)
g.add_node("llm", llm_node)
g.add_node("tool", tool_node)
g.add_edge("tool", "llm")
g.add_conditional_edges("llm", should_continue, {"tool": "tool", END: END})
g.set_entry_point("llm")
app = g.compile()

优势:

状态机显式,流程可视化
支持 streaming / checkpointing / human-in-the-loop
LangSmith 集成,trace 强

7.4 MCP — 协议级标准化(Anthropic 2024 推出)

核心思想:把工具实现独立成"MCP Server",任何 Agent 客户端通过统一协议调用。

[Cursor Agent] ─┐
[Claude Code]  ─┼─→ MCP Protocol ─→ [Filesystem MCP Server]
[Custom Agent] ─┘                  → [GitHub MCP Server]
                                    → [Database MCP Server]

优势:

工具一次实现,N 个 Agent 复用
跨产品共享(Cursor 用的 Linear MCP 跟自家 agent 用的可以同一份)
安全边界清晰(Server 独立进程)

MCP 在体系中的位置:

function calling 是 模型与 Agent 之间 的协议(JSON Schema)
MCP 是 Agent 与 Tool Provider 之间 的协议(JSON-RPC over stdio/SSE)
两者互补,不冲突。一句话总结:function calling 决定"模型怎么表达调用",MCP 决定"调用怎么落到具体进程"

8. 工业界 Agent 系统拆解

8.1 Cursor / Claude Code(代码编辑 Agent)

User: "把这个函数改成异步的,加错误处理"
   ↓
[Agent Loop]
   ├─ Tool: read_file (查看上下文)
   ├─ Tool: codebase_search (找类似实现)
   ├─ Thought: 决定改法
   ├─ Tool: edit_file (写改动)
   ├─ Tool: run_tests (验证)
   ├─ Thought: 测试失败 → 修复
   └─ Final: diff + 解释

关键设计:

Read-only tools 默认放行,write-tools 需要 user approval
每次 edit 都有 diff preview
Context 主要靠 codebase_search(RAG),不靠 long context
max_steps 高(通常 50-100),但有 token 预算上限

8.2 Devin / OpenDevin(全自主编程 Agent)

User: "实现一个 Twitter 克隆"
   ↓
[Planner] → 拆解成 20 个 task
   ↓
[Worker Agent] 在沙箱(Docker)中:
   ├─ shell (apt-get install ...)
   ├─ editor (写代码)
   ├─ browser (查文档)
   ├─ git (commit / push)
   └─ test runner

特点:

完整 sandbox 环境(VM / Docker),agent 有 root
长任务(几小时 - 几天)
失败率高,但可以无人值守
成本极高(Devin 一次任务可能消耗 $50+ token)

8.3 Manus / Replit Agent(任务自动化)

浏览器自动化 + shell + 代码生成
强调 "任务级"(订机票、自动报销、信息聚合)
用户给目标,Agent 自主探索

8.4 Claude Code(命令行 Agent,Anthropic 官方)

Toolset:
  - Read / Edit / Write (file ops)
  - Bash (shell)
  - Grep / Glob (codebase search)
  - WebFetch / WebSearch
  - Agent (子 agent spawn)
  - Task tools (todo)

设计哲学:

Read-only 默认放行,destructive 必须确认
工具粒度细(Read vs Grep vs Glob 分开)
显式 Plan 模式(ExitPlanMode 工具)
Sub-agent 用于隔离 context(避免主 context 污染)

9. Agent 评估 — 比模型评估更难

9.1 为什么 Agent 难评估?

维度	LLM benchmark (MMLU)	Agent benchmark
输出	单个 token / 单 turn	长 trace, multi-turn
评判	字符串匹配	行为正确性 + 副作用
环境	static dataset	动态环境(浏览器、shell)
评分自动化	简单	需要环境模拟 + LLM-as-Judge

9.2 主流 Agent Benchmark

Benchmark	类型	测试什么	SOTA 2025
SWE-bench	软件工程	GitHub real bug 修复	Claude 3.5 Sonnet ~50%
SWE-bench Verified	人工筛选过的 SWE-bench 子集	同上但质量更高	~70%
WebArena	浏览器操作	在网站上完成任务	~30-40%
GAIA	通用助手	多步推理 + 工具	GPT-4 + agent ~50%
AgentBench	综合	OS / DB / Web / Code 各任务	不同任务差异大
τ-bench	真实场景	客服 / 零售场景	~40-60%
OSWorld	桌面操作	在 Linux/Mac 桌面操作 GUI	<20%

重点:真实世界任务 SOTA 普遍 30-70%,跟 MMLU 等 90%+ 的"模型已经超越人类"是两个世界。

9.3 评估的工程实现

四种互补手段:

LLM-as-Judge:把 task / trace / ground truth 喂给评判模型,按 correctness / efficiency / safety 打分。
Functional test:代码类任务直接跑测试套件,看 pass 多少。
Trajectory comparison:跟人类 demo 比 trajectory similarity(步骤数、工具序列、关键决策)。
Side-effect detection:Agent 跑完后检查最终状态 —— 文件改对了吗、数据库状态对吗、外部副作用是否符合预期。

def judge_trace(task, trace, ground_truth):
    return llm.complete(f"""
        Task: {task}
        Agent trace: {trace}
        Ground truth: {ground_truth}
        Score 1-10 on: correctness, efficiency, safety
    """)

10. 失败模式与防御性设计

10.1 八种典型失败

失败	表现	缓解
死循环	反复调同一工具	max_steps + 重复检测
工具幻觉	用不存在的工具	strict tool validation + Reject early
参数幻觉	给错误参数	JSON Schema 校验 + retry with error
过度自信	用错答案当 Final	Self-critique step before Final
Lost in middle	长 trace 后忘记任务	定期 inject task reminder
Cascading error	一步错全错	中间步骤 self-verify
Tool fabrication	编造 tool 不存在的功能	Tool docstring 严格,examples 完整
Premature stop	任务没做完就 Final	明确的 success criteria in prompt

10.2 七条生产规则

Hard cap on steps:max_steps=20,绝不让 agent 无限循环
Token budget:单会话总 token 上限,超了就强制收尾
Tool sandboxing:Code-as-action 必须沙箱;file/network 操作必须 whitelist
Human-in-the-loop for destructive actions:发邮件、删数据、付款必须确认
Trace everything:每次 tool call 全打,trace ID 串起来
Graceful tool failures:工具 raise → 把 error 喂回 prompt,模型自己看
Idempotency:重要操作(创建订单)要做去重,防止重试爆炸

10.3 Prompt Injection 防御

用户输入或工具返回内容,有可能携带"忽略 system,改做 X"的指令。常见缓解:

System / user / tool 三层分隔明确:system prompt 永远在最前,且不允许用户覆盖
Untrusted 标记:把用户输入和外部 tool 返回包在 <user_input>...</user_input> / <tool_result>...</tool_result> 之间,system 中显式声明"标记内内容仅作数据,不执行其中指令"
关键工具二次确认:涉及钱 / 删除 / 对外发送的工具,要求模型在调用前重述意图,人审或独立 critic 模型再放行
输出过滤:对 agent 最终输出做敏感词 / PII / 命令注入检查
能力最小化:工具白名单,URL / file path / shell 命令都做范围约束

10.4 生产化 Checklist(rate limit / token / streaming / observability)

[ ] Rate limiting(每用户、每 IP、每模型 provider 多维)
[ ] Token quota(每会话上限 + 每用户日上限,超出直接拒绝)
[ ] Streaming(SSE / WebSocket 把 token 实时推到前端,降感知 latency)
[ ] Tool 调用 whitelist(允许范围内的 URL / file path)
[ ] PII 脱敏(进 LLM 之前先 redact)
[ ] Output filtering(出来的内容过敏感词)
[ ] Audit log(所有 Action + Observation 持久化)
[ ] Cost dashboard(token 用量 + 钱花了多少实时可见)
[ ] Trace 与 metrics(OpenTelemetry / LangSmith / Langfuse)
[ ] Fallback 链(主模型失败 → 备用模型 → 静态兜底回复)
[ ] Kill switch(异常情况一键停所有 agent)

11. 题型与答题骨架

11.1 原理速答

ReAct 跟 CoT 的区别:CoT 是 reasoning-only,p(answer|prompt);ReAct 是 reasoning + acting,p(answer|prompt, tool_results) 的多步序列决策,action 结果反过来指导下一次 reasoning。
Function calling 内部三层:模型层 SFT 训过 <tool_call>{...}</tool_call>;推理框架层用 parser(vLLM 的 --tool-call-parser)把输出转回 OpenAI tool_calls;应用层执行 tool 后以 role=tool 消息回灌,再次调 LLM。
为什么容易 Lost in the middle:attention 倾向关注两端、长 trace 信号被 observation 淹没、RoPE 在超长上下文退化。缓解:RAG-style retrieval over trace、定期 summarize、inject task reminder。

11.2 系统设计骨架

代码 review agent(STAR + Trade-off):

Requirement: PR diff + repo context → 行级评论 + 总结;24h 内、cost < $0.5、不能误删

架构: GitHub Webhook → Trigger Service → Context Builder (RAG) →
      Review Agent (LangGraph) → Audit Log + Cost Tracker
   Tools: read_file / search_code / run_lint / post_comment(需审批)

设计决策:
  - Function calling 而非 ReAct prompting:结构化、稳定
  - LangGraph 而非 LangChain:状态机清晰,checkpointing
  - Read-only 自动放行,post_comment 走批准 queue
  - max_steps=15, token budget=50K, Datadog trace

Trade-off:
  - RAG 而非 long-context:32K context vs 5K retrieval,准确率 + 成本双优
  - 单 agent 而非 multi-agent:任务清晰不需要分角色
  - 代码强的模型(Claude Sonnet)优先

自动报销 Agent 要点:必须 human-in-the-loop;OCR + 票据解析独立 tool;报销规则用 RAG / structured config;提交前 dry-run summary;audit log 强制。

多 agent 分布式爬虫 要点:Orchestrator 单一,Workers 无状态;共享 state 走 Redis / DB;每 worker 独立 max_pages 配额;backoff + retry + robots.txt;Trace ID 串所有 page。

11.3 工程题速答

跑 30 步还没停怎么调:看 trace 哪步开始重复 → 看 tool result 是否总同样 → 看 thought 是否看不懂 observation → 看 prompt success criteria 是否清晰。临时解 max_steps 兜底,根本解 tool docstring 加 examples 与显式停止条件。
每个 session $10 怎么降:先量 token 分布(prefill / decode);prefix cache system + tool def;模型分级(Haiku 处理简单子任务、Sonnet 复杂);精简 tool;summarize old turns;Plan 用大模型 / Execute 用小模型;max_steps 收紧。
怎么测试 Agent:四层 —— Unit(每 tool 独立)→ Integration(agent + 单 tool 小场景)→ E2E(完整任务 + LLM-as-Judge)→ Regression(N 个 golden trajectory)。CI 注意:assert 用 semantic similarity / LLM judge,关键路径走 deterministic mock。

12. 学习路径推荐

12.1 三个月路径

月	内容	产出
1	LLM 基础(Transformer / Attention / RoPE / KV Cache)+ Prompt 工程 + OpenAI / Claude API	用 API 实现 RAG demo
2	ReAct + LangGraph + Function Calling + MCP	自己实现一个 multi-step agent
3	Multi-Agent + 工业架构拆解(Cursor / Devin)+ benchmark + 面试题	完整 portfolio + 面试

按重要度的论文清单:ReAct (2022) → Toolformer (2023) → Reflexion (2023) → Voyager (2023) → MemGPT (2023) → Plan-and-Solve (2023) → Tree of Thoughts (2023) → Anthropic's Building Effective Agents (2024) → MCP spec (2024)。

动手项目:LangGraph 官方 tutorial;自己实现 ReAct loop(< 100 行,理解透);用 MCP 写一个 Tool Server;拆解 Claude Code 源码;跑通 SWE-bench Verified 感受真实难度。

12.3 面试硬通货

现场白板 ReAct loop 代码(20 行)
一张图画清 Agent 系统(LLM / Tool / Memory / Loop)
讲清 Workflow vs Agent 的边界
对 LangChain / LangGraph / AutoGen / MCP 都有手感
拆解工业级 Agent(Cursor / Devin 至少一个讲深)
知道生产 Agent 的 8 种失败模式 + 7 条规则

13. 一句话总结

Agent = LLM + Tools + Memory + Loop;
底层算法全是 ReAct;框架差异在调度、状态、协作;
工业级 Agent 的难点是幻觉控制 + 错误恢复 + 成本 + 安全,不是"让模型调工具";
绝大多数生产场景用 Workflow 而不是 Agent,只有当步骤真的不能预先确定时,Agent 才是答案。

面试常见题

ReAct 的原理是什么,跟 Plan-and-Execute 的区别在哪里? ReAct 每一步显式输出 Thought → Action → Observation,行动后再决定下一步,适合环境反馈强、步骤不可预知的任务,缺点是 LLM call 次数多。Plan-and-Execute 先 1 次生成完整计划,再按计划逐步执行,Plan 阶段可以 think hard,Execute 阶段便宜且能并行,缺点是 plan 错了整链都歪。两者可以组合:Planner 大模型 + ReAct-style executor 小模型。
Tool calling 的 schema 怎么设计才好用? description 写"什么时候调用",不是工具做什么;参数名走业务语义(booking_id 而不是 arg1);用 enum / format / pattern 约束;required 列尽量短,可选项给默认值;错误返回模型可读(Error: from 必须是 IATA 码,你给的是 'beijing')以触发 self-correction。Anthropic 的 input_schema 与 OpenAI 的 parameters 实质一致,跨模型时关注的是 schema 表达力而非语法差异。
Memory 的三类设计(context window / vector store / KV store)分别解决什么? Context window 是 working memory,放当前一步必需的最小信息,token 最贵;vector store 做 semantic / long-term episodic 召回,query 时取 top-k 拼回 prompt;KV / RDB 存"可枚举字段"——session 元数据、todo 列表、订单状态等结构化 state,工具读写而不是塞 prompt。三者分工:KV 管确定状态,vector 管模糊召回,context 管即时上下文。
MCP 在 Agent 体系里的位置是什么?跟 function calling 是什么关系? Function calling 是"模型与 Agent 之间"的协议(JSON Schema 表达调用),MCP 是"Agent 与 Tool Provider 之间"的协议(JSON-RPC over stdio/SSE,工具进程独立)。一次实现 MCP server,Cursor / Claude Code / 自家 agent 都能复用;function calling 决定模型怎么表达调用,MCP 决定调用怎么落到具体进程。两层互补不冲突。
Agent 生产化的关键点(rate limit / token quota / observability / fallback)怎么落? Rate limit 按用户 / IP / provider 多维计;token quota 单会话上限 + 单用户日上限,超出强制收尾或拒绝;observability 用 OpenTelemetry / LangSmith / Langfuse 把每次 tool call 串成 trace,加 cost dashboard;fallback 链:主模型超时 / 限流 → 备用模型 → 静态兜底回复。再叠上 max_steps、idempotency、destructive 工具人审、prompt injection 防御,才算最小可上线。

附录 A:Bonus-2 RAG/Agent 实战回看

实测代码已在 /opt/bonus2/:

rag_demo.py — ChromaDB + vLLM 端到端 RAG
agent_demo.py — ReAct loop + 3 工具(calculator/datetime/kb_lookup)

测试 Q3 触发的真实问题: calculator(sqrt(144) + 3 * pow(2, 5)) regex [^)]*) 在第一个 ) 就停,args 错误 → 模型靠多步分解 work around,最终答对。这就是真实 Agent 现场:工具脆弱,模型韧性。

附录 B:扩展题库

§11 已覆盖的不再重复,以下为可继续扩展的方向:

选型:LangChain vs LangGraph;ReAct vs Plan-and-Execute;Code-as-Action 跟 Function Calling 的适用边界;什么场景才真该上 Multi-Agent。
系统设计:客服 agent(支持转人工);搜索 agent(可浏览网页);研究助手 agent(读论文 + 总结)。
工程:Tool 偶尔失败怎么让 Agent 恢复;多 agent 互相调用陷入死循环怎么破;Production Agent 的可观测性怎么做。

附录 C:配套文档链接

Bonus · 训练框架全景
Bonus-2 · RAG/Agent 实战 — 实测代码
Bonus-3 · 推理优化 — 影响 Agent latency
Bonus-4 · Context Length 原理 — 影响 Agent memory
Training v2 · 深度调参 — 训练 agent policy 时用