Agent 面试通关 / 06
多智能体协作:角色分工、通信机制与冲突仲裁
多智能体协作是 Agent 面试中越来越高频的方向。随着单 Agent 能力趋近天花板,面试官开始考察:你能不能设计一个多 Agent 系统,让它们分工明确、协作高效、出了分歧还能收敛。
多 Agent 协作基础
Q:多智能体怎么协作?比如一个写代码一个审查
来源:Agent 岗面试高频题
新手答:“一个写完发给另一个看就行。”
高手答:
多 Agent 协作的核心是角色隔离 + 通信规范 + 冲突收敛,不是简单的“你写我看”。
- 角色定死,职责不交叉:每个 Agent 的 System Prompt 里明确限定职责和输出格式。比如“程序员”只负责写代码和解释设计意图,“审查员”只负责指出问题和给出修改建议——绝不让审查员自己改代码,否则职责边界模糊,输出会乱
- 通信用结构化消息:Agent 之间不传自然语言长文,而是用 JSON 消息体,带上
task_id、role、action、payload等字段。这样既方便下游解析,也方便事后追踪和调试 - 协作拓扑按场景选:简单任务用顺序链(写完 → 审查 → 修改);复杂任务用分治(多个程序员并行写不同模块,汇总后统一审查);需要讨论的场景用多轮对话(程序员和审查员来回交互,限定最多 3 轮)
- 冲突必须有收敛机制:审查员和程序员意见不一致时,不能无限来回。设计一个仲裁者角色(可以是更强的模型,也可以是规则引擎),或者关键步骤直接升级到人工介入
差距在哪:新手的回答是一个最简单的两步流程——没有考虑通信格式、冲突处理、拓扑选择。高手的回答覆盖了四个工程维度:角色隔离(谁做什么)、通信规范(怎么传递)、拓扑选择(怎么编排)、冲突收敛(意见不一致怎么办)。面试官考的是“你有没有设计过需要多个组件协作的系统”——多 Agent 协作和微服务架构的思路是相通的。
Q:多 Agent 系统里,怎么防止 Agent 之间“踢皮球”或死循环?
来源:Agent 岗面试高频题
新手答:“加个超时就行。”
高手答:
超时是最后一道防线,但不能只靠它。踢皮球和死循环的根因是职责模糊或终止条件不明确:
- 职责判定前置:在任务分发层做意图路由,明确判断“这个任务该归谁”。如果路由不确定,直接交给一个“兜底 Agent”处理,而不是让多个 Agent 互相推诿
- 交互轮次硬限制:任意两个 Agent 之间的交互最多 N 轮(比如 3 轮),超过就强制输出当前最优结果,不再来回。这个限制写在编排层,Agent 自己不能覆盖
- 状态机驱动流转:用状态机管理任务流转,每个状态只能转向有限的下一个状态,不存在“回到原点”的环路。状态转移规则在编排层硬编码,模型无法篡改
- 全局超时兜底:整个多 Agent 流程设一个总超时(比如 60 秒),到点不管走到哪一步,都输出当前已有的最优结果并通知用户
差距在哪:新手只有超时——这是事后补救。高手的思路是从源头预防:职责判定防踢皮球、轮次限制防无效循环、状态机防非法跳转、超时兜底防极端情况。面试官考的是“你理不理解分布式系统里的活锁问题”,多 Agent 协作本质上就是分布式系统。
Q:多 Agent 之间需要共享状态吗?怎么设计?
来源:Agent 岗面试高频题
新手答:“放 Redis 里,大家都能读写。”
高手答:
需要共享,但绝不能裸读写,否则会出现状态冲突和覆盖问题。我们用黑板模式(Blackboard Pattern):
- 中央状态存储:一个所有 Agent 都能访问的共享空间(可以是 Redis、数据库、甚至内存字典),存储当前任务的全局状态——任务进度、中间结果、关键决策
- 读写权限分离:每个 Agent 只能写自己职责范围内的字段。程序员只能写
code_output,审查员只能写review_comments,互不干扰 - 事件驱动触发:Agent 不轮询黑板,而是通过事件机制——当某个字段被更新时,自动通知订阅了这个字段的下游 Agent。比如
code_output写入后,自动触发审查员开始工作 - 版本化防覆盖:关键字段带版本号,更新时做乐观锁检查,防止并发写入覆盖
差距在哪:新手的“放 Redis”解决了存储问题,但没考虑并发冲突、权限隔离、触发机制。高手的黑板模式是一个经典的多智能体架构模式——有读写隔离、事件驱动、版本控制。面试官考的是“你有没有多组件共享状态的设计经验”,如果你做过消息队列或事件总线系统,这道题的思路是一样的。
单多 Agent 决策与模式
Q:单 Agent 还是多 Agent 的?子 Agent 的任务是什么?
来源:抖音基础架构 Agent 一面
新手答:“用一个 Agent 就行。”
高手答:
以 AI 代码测试系统为例,用多 Agent 架构,分四个角色:
┌─────────────┐ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐
│ 代码分析器 │ ──→ │ 测试生成器 │ ──→ │ 测试验证器 │ ──→ │ 覆盖率检查器 │
│ Analyzer │ │ Generator │ │ Validator │ │ Coverage │
└─────────────┘ └─────────────┘ └─────────────┘ └─────────────┘
- 代码分析器:解析待测代码的 AST,提取函数签名、依赖关系、分支结构、复杂度指标,输出结构化的分析报告
- 测试生成器:基于分析报告和提示词模板,生成测试代码。它只负责“写”,不负责“验”
- 测试验证器:执行生成的测试,检查语法是否正确、能否通过编译、断言是否合理。失败的用例连同错误信息反馈给生成器重试
- 覆盖率检查器:跑覆盖率工具,分析哪些分支没覆盖到,把未覆盖的分支信息反馈给生成器做补充生成
拆成多 Agent 的原因:每个环节的失败模式不同,分开才能精准重试。生成失败和验证失败的处理逻辑完全不一样,混在一起会导致无效重试。
差距在哪:新手默认用单 Agent 解决所有问题。高手的多 Agent 架构有明确的拆分理由——不同环节的失败模式不同,分开才能精准处理。面试官考的是你为什么拆、怎么拆、拆完各个子 Agent 之间怎么协调。
Q:怎么判断一个 Agent 该做成单 Agent,还是多 Agent?
来源:腾讯大模型应用开发二面 【阿里国际一面追问:Claude Code 是 multi 还是 single agent】
新手答:“复杂任务用多 Agent,简单任务用单 Agent。”
高手答:
关键不是任务听起来复不复杂,而是三个判断维度:
- 能力边界是否清晰:如果任务里包含明显不同的专业能力(代码修改、合规审查、数据分析),拆开更清晰
- 上下文是否容易污染:不同子任务的中间状态混在一起会互相干扰时,隔离有价值
- 是否存在天然并行:多个子任务可以同时进行时,多 Agent 能降低总延迟
如果整个任务虽然长,但上下文高度统一,一个 Agent 加状态机通常就够了。
多 Agent 的好处是职责分离、上下文隔离、局部优化方便,但成本也更高——需要处理通信、调度和一致性。所以不是越多 Agent 越高级,很多场景单 Agent 反而更稳。只有在“拆开明显比揉在一起更好管”的时候,多 Agent 才值得做。
差距在哪:新手用“复杂 vs 简单”做判断——这个维度太模糊。高手给出了三个具体判断标准(能力边界、上下文污染风险、天然并行性),且指出多 Agent 的隐性成本。面试官考的是你选架构时有没有明确的判断框架,而不是凭感觉。
Q:在多 Agent 协作系统中,记忆应该如何共享?是全局共享还是每个 Agent 独立?
来源:后端 AI 八股 / Memory 系统 【小红书AI应用开发同题:多Agent上下文管理与共享】
新手答:“全部共享,大家都能看到。”
高手答:
既不是全局共享,也不是完全独立——是分层共享:
| 记忆层 | 共享范围 | 示例 |
|---|---|---|
| 全局共享记忆 | 所有 Agent 可读 | 用户画像、系统规则、全局上下文 |
| 团队共享记忆 | 同一任务的 Agent 组可读写 | 当前任务的中间结果、协作状态 |
| 私有记忆 | 单个 Agent 独占 | Agent 自己的推理过程、工具调用中间态 |
关键设计原则:
- 读写权限分离:全局记忆大部分 Agent 只读,只有特定角色能写
- 传结论不传过程:Agent 之间共享的是结构化结论(“查到用户订单号是 XXX”),不是原始推理链
- 版本化防冲突:共享记忆带版本号,并发写入时用乐观锁,防止互相覆盖
- 按需订阅:Agent 不轮询共享记忆,而是订阅自己关心的字段变更,事件驱动
全局共享的风险是上下文污染——A Agent 的中间推理被 B Agent 当成事实。完全独立的问题是信息孤岛——Agent 之间重复劳动。分层共享是平衡点。
记忆隔离与上下文污染防治:
在多 Agent 系统中,不同 Agent 使用不同工具,工具返回的原始数据如果不经处理就写入共享记忆,会造成跨工具上下文污染——A Agent 的搜索结果被 B Agent 当成事实依据。
防治措施:
| 污染类型 | 具体表现 | 防治方案 |
|---|---|---|
| 工具结果泄漏 | Agent A 的搜索结果被 Agent B 误用 | 工具返回值只写入调用者的私有记忆,共享记忆只存结论 |
| 推理过程泄漏 | Agent A 的 chain-of-thought 被 Agent B 当成事实 | 严格区分“推理过程”和“确认结论”,只共享后者 |
| 状态竞态 | 并发 Agent 同时更新共享状态,互相覆盖 | 乐观锁 + 版本号,冲突时由编排层仲裁 |
| 角色混淆 | 共享上下文中包含多个 Agent 的指令,模型混淆角色 | 每条共享信息标注来源 Agent ID 和角色 |
核心原则:共享记忆中只存“what”(结论和事实),不存“how”(推理过程和工具原始返回)。每个 Agent 的 thinking 和 tool outputs 严格限制在私有空间内。
差距在哪:新手要么全共享(污染风险)要么全独立(效率低)。高手用三层共享模型平衡了协作效率和隔离安全,且给出了权限、传递、版本、订阅四个关键设计点。面试官考的是你对多组件共享状态的架构设计能力。
Q:多 Agent 设计里,按“职能拆分”和按“阶段拆分”各有什么优缺点?
来源:Agent 开发面试 30 题
新手答:“按职能拆更清晰。”
高手答:
两种拆分方式解决的是不同的问题,不存在“哪个更好”:
按职能拆分(Functional Split):
用户请求 → 路由器 → 搜索 Agent / 计算 Agent / 写作 Agent / 数据库 Agent
每个 Agent 有独立的能力域,路由器根据用户意图分发。
| 优点 | 缺点 |
|---|---|
| 职责清晰,每个 Agent 的 Prompt 和工具集精简 | 复杂任务需要多个 Agent 协作,通信成本高 |
| 单个 Agent 可独立优化和测试 | 路由器成为单点瓶颈,路由错了全盘皆输 |
| 新增能力只需加一个 Agent,不影响其他 | 跨 Agent 的状态共享是难题 |
按阶段拆分(Stage Split):
用户请求 → 理解 Agent → 规划 Agent → 执行 Agent → 总结 Agent
每个 Agent 负责任务流水线的一个阶段,依次传递。
| 优点 | 缺点 |
|---|---|
| 流程清晰,每步输出是下步输入 | 增加一个阶段需要改整条链路 |
| 天然适合有明确先后依赖的任务 | 前一阶段出错,后续全部受影响(错误级联) |
| 状态传递简单(线性传递) | 不适合需要灵活分支的场景 |
实际工程中的选择标准:
- 任务类型多样、各子任务独立性强 → 职能拆分(如客服系统:查询/投诉/咨询各一个 Agent)
- 任务流程固定、阶段依赖强 → 阶段拆分(如代码审查:理解 → 分析 → 修复建议 → 总结)
- 两者可以嵌套:宏观按阶段拆,某个阶段内部按职能拆
差距在哪:新手只知道职能拆分。高手对比了两种拆分方式的优缺点和适用场景,且指出两者可以嵌套组合。面试官考的是你在多 Agent 架构设计时有没有系统性的拆分思路。
通信协议与 Handoff
Q:Handoff 的核心难点是什么?是路由问题、状态传递问题,还是权限边界问题?
来源:Agent 开发面试 30 题
新手答:“主要是路由问题,让请求到正确的 Agent。”
高手答:
Handoff(Agent 间交接)的难点三个都有,但最容易被低估的是状态传递。
路由问题——最显眼但最好解决:
用意图分类器或模型判断“该交给哪个 Agent”,准确率做到 90%+ 不难。兜底方案也简单——路由错了让目标 Agent 检测到不属于自己的任务后回退。
权限边界——重要但相对静态:
每个 Agent 的工具访问权限、数据访问范围可以在配置中明确定义。Handoff 时校验目标 Agent 是否有权限处理该任务。这是设计时就能确定的,运行时不太会变。
状态传递——最隐蔽也最容易出问题:
Agent A 和用户聊了 10 轮 → Handoff 到 Agent B
Agent B 需要知道什么?
❌ 把 A 的全部对话历史传过去 → B 的上下文被污染,A 的推理过程干扰 B 的判断
❌ 只传最后一条消息 → B 丢失了关键约束(用户预算、偏好等)
✅ 传结构化的"交接摘要" → 任务目标 + 关键约束 + 已完成步骤 + 未完成步骤
状态传递的核心难点是信息的取舍——传多了上下文污染,传少了信息缺失。最佳实践是定义标准化的 Handoff Protocol:
{
"task_goal": "帮用户订北京到上海的机票",
"constraints": {"budget": 2000, "date": "2026-04-20", "class": "经济舱"},
"completed_steps": ["已查询航班列表", "用户选择了 CA1234"],
"pending_steps": ["确认支付", "出票"],
"handoff_reason": "进入支付环节,需要支付 Agent 处理"
}
差距在哪:新手只看到路由问题。高手分析了三个难点的层次——路由最显眼但最好解决,权限重要但静态,状态传递最隐蔽也最关键,且给出了标准化 Handoff Protocol 的设计。面试官考的是你对多 Agent 交接的工程化理解深度。
Q:MCP 和 A2A 分别解决什么层面的问题?如果系统同时用了两者,架构上怎么分工?
来源:Agent 开发面试 30 题
新手答:“MCP 是调工具的,A2A 是 Agent 之间通信的。”
高手答:
方向对,但需要精确区分协议层次和解决的核心问题:
MCP(Model Context Protocol)——Agent 与工具/资源的连接协议:
解决的是“Agent 怎么发现和调用外部能力”——数据库查询、API 调用、文件读写等。本质是Agent 到工具的标准化接口,类似于 USB 协议让电脑能接各种外设。
Agent ──MCP──→ 工具 A(数据库查询)
Agent ──MCP──→ 工具 B(搜索引擎)
Agent ──MCP──→ 工具 C(代码执行)
A2A(Agent-to-Agent)——Agent 与 Agent 的协作协议:
解决的是“多个 Agent 怎么互相发现、通信和协作”——任务委托、结果回传、状态同步。本质是Agent 到 Agent 的通信协议,类似于 HTTP 让不同服务之间能互相调用。
Agent A ──A2A──→ Agent B(委托子任务)
Agent B ──A2A──→ Agent A(返回结果)
Agent A ──A2A──→ Agent C(并行委托)
两者同时使用时的架构分工:
flowchart TB
U["用户"] --> MA["主 Agent"]
MA -->|"A2A:委托子任务"| SA1["搜索 Agent"]
MA -->|"A2A:委托子任务"| SA2["分析 Agent"]
SA1 -->|"MCP:调用工具"| T1["搜索引擎"]
SA1 -->|"MCP:调用工具"| T2["数据库"]
SA2 -->|"MCP:调用工具"| T3["Python 执行器"]
SA2 -->|"MCP:调用工具"| T4["图表生成器"]
- A2A 负责“水平”通信:Agent 之间的任务分发、结果汇总、状态协调
- MCP 负责“垂直”连接:每个 Agent 向下调用自己需要的工具和资源
两者不冲突,是不同层次的协议——A2A 解决组织协作问题,MCP 解决能力接入问题。类比公司组织:A2A 是部门之间的沟通协议,MCP 是员工使用办公工具的标准接口。
差距在哪:新手把两者简单对立。高手明确了两者的协议层次(水平通信 vs 垂直连接),且给出了同时使用时的架构图和分工原则。面试官考的是你对 Agent 协议生态的理解——不只是“知道”这两个概念,而是知道它们在系统架构中的位置。
SubAgent 设计
Q:什么时候该用 subagent?为什么工具调用多就倾向用 subagent?
来源:蚂蚁集团一面
新手答:“工具调用多就用 subagent,少就不用。”
高手答:
用不用 subagent 的核心判断不是“工具调用多不多”,而是上下文隔离的收益是否大于通信的成本。
什么时候该用 subagent:
- 子任务会产生大量中间结果,但主任务只需要最终结论:比如“搜索 10 个文件找到某个函数定义”——subagent 内部产生大量搜索结果和文件内容,主 agent 只需要一个文件路径和行号。如果不用 subagent,这些中间结果会污染主 agent 的上下文窗口
- 子任务的上下文和主任务高度不相关:主任务在做代码重构规划,中间需要查一下某个 API 的用法文档——两者的上下文完全不同,混在一起会干扰主任务的推理
- 需要并行处理多个独立子任务:比如同时在三个模块里查找某个接口的调用方,三个搜索互不依赖,用 subagent 可以并行执行
为什么工具调用多就倾向用 subagent:
工具调用多意味着中间状态膨胀快。每次工具调用的输入和返回都会占用上下文窗口:
主 agent 直接调 10 次工具:
上下文增量 = 10 × (工具调用描述 + 工具返回结果) ≈ 数千 token
→ 主任务的原始上下文被稀释,推理质量下降
用 subagent 封装:
上下文增量 = 1 × subagent 返回的结论摘要 ≈ 几百 token
→ 主任务上下文保持干净
本质上,subagent 是一种上下文管理策略——用进程隔离的思路解决上下文污染问题。和操作系统里“子进程做脏活、父进程只看结果”是同一个思路。
差距在哪:新手把 subagent 当成”工具调用多时的自动选择”。高手理解 subagent 的核心价值是上下文隔离,判断标准是”中间结果对主任务有没有价值”。面试官考的是你对上下文管理的工程化理解。
追问:主 Agent 和子 Agent 共用同一个上下文吗?
来源:bilibili AI研发实习一面
答案是:不共用,这正是 subagent 存在的意义。
主 Agent 和子 Agent 各自维护独立的上下文窗口,通过结构化消息而非共享上下文来通信:
主 Agent 上下文:
[系统指令] [用户任务] [规划结果] [子Agent1的结论] [子Agent2的结论]
子 Agent 上下文:
[系统指令] [主Agent分配的子任务] [工具调用1] [工具返回1] [工具调用2] [工具返回2] ...
主 Agent 看不到子 Agent 的工具调用细节,子 Agent 也看不到主 Agent 的全局规划和其他子 Agent 的结果。两者之间的通信是:
| 方向 | 传递内容 | 形式 |
|---|---|---|
| 主→子 | 子任务描述 + 必要上下文 | 结构化的任务指令 |
| 子→主 | 执行结论 + 关键数据 | 结构化的结果摘要 |
为什么不共用上下文:
- 上下文污染:子 Agent 执行 10 次工具调用产生的中间结果,会把主 Agent 的任务目标和关键约束”淹没”,导致主 Agent 推理质量下降
- 窗口浪费:主 Agent 不需要知道子 Agent 的每一步操作细节,只需要最终结论。共用上下文意味着大量无用信息占据宝贵的窗口空间
- 职责混乱:共用上下文后,子 Agent 可能被主 Agent 的其他指令干扰,偏离自己的子任务目标
类比:主 Agent 是项目经理,子 Agent 是具体执行者。经理不需要看到执行者的每一封邮件和每一次会议记录——只需要一份结论报告。这就是上下文隔离的核心思想。
Q:任务简单但工具调用多,用 subagent 是否浪费 token?怎么解决?
来源:蚂蚁集团一面
新手答:“简单任务就不用 subagent 了,直接调工具。”
高手答:
这个问题的核心矛盾是:subagent 有启动成本(system prompt + 上下文初始化),但简单任务的推理本身不需要那么多 token。
先量化一下成本:
| 方案 | token 消耗构成 | 适合场景 |
|---|---|---|
| 主 agent 直接调工具 | 工具调用 × N(累积在主上下文中) | 工具调用少(<3 次),结果对主任务有用 |
| 启动完整 subagent | system prompt + 任务描述 + N 次工具调用 + 总结 | 工具调用多,需要独立推理 |
| 轻量级工具链 | 预定义的工具编排序列,无需模型推理 | 流程固定,不需要模型判断 |
解决方案是分层处理:
- 简单 + 工具少(如“读取某文件的第 10 行”)→ 主 agent 直接调,不值得启动 subagent
- 简单 + 工具多但流程固定(如“在 5 个目录里分别执行 ls”)→ 用轻量工具链,把多次工具调用编排成一个复合操作,不经过模型推理,零 token 消耗
- 简单 + 工具多但需要判断(如“搜索某个函数定义,可能在多个文件里”)→ 用 subagent,但精简 system prompt,只给必要的任务描述,不加载完整的能力描述
关键洞察:“浪费 token”的根源不是 subagent 本身,而是没有根据任务复杂度调整 subagent 的“规格”。就像不需要为查一个文件启动一台虚拟机——轻量容器就够了。
差距在哪:新手把 subagent 当成全有或全无的选择。高手给出了三级分层方案——直接调用、轻量工具链、精简 subagent,根据任务特征选最经济的方案。面试官考的是你对 Agent 系统成本控制的精细化思维。
Q:图片信息怎么在 subagent 之间流转?
来源:蚂蚁集团一面
新手答:“把图片传给下一个 subagent 就行。”
高手答:
图片在 subagent 间流转的核心挑战是多模态数据的序列化成本远高于文本。一张图片编码成 token 可能占几百到上千 token,如果在 subagent 之间原样传递,成本和延迟都会爆炸。
三种流转策略:
1. 传引用,不传内容(首选)
subagent A 处理图片 → 输出:{image_ref: "cache://img_001", description: "架构图,包含三层..."}
subagent B 接收引用 → 需要时才通过 image_ref 加载原图
把图片存在共享缓存(内存/磁盘/对象存储),subagent 之间只传引用 ID 和文本描述。大多数下游 subagent 只需要文本描述就够了,只有真正需要“看图”的 subagent 才加载原图。
2. 传结构化摘要(最省 token)
如果上游 subagent 已经理解了图片内容,直接传结构化的理解结果:
{
"image_type": "流程图",
"entities": ["用户请求", "API 网关", "服务集群"],
"relationships": ["用户请求 → API 网关 → 服务集群"],
"key_info": "三层架构,网关做鉴权和限流"
}
下游 subagent 拿到结构化数据就能工作,完全不需要再看图片。
3. 多分辨率传递(平衡质量和成本)
对同一张图片生成多个版本:缩略图(低 token)、中等分辨率、原图。根据下游任务需要选择合适的分辨率:
- 只需要判断“这是什么类型的图” → 缩略图
- 需要读取图中文字 → 中等分辨率
- 需要精细分析细节 → 原图
核心原则:图片数据在 subagent 间流转时,能用文本描述替代就用文本,能用引用替代就用引用,只有确实需要视觉理解时才传递图片本体。这和微服务间传大对象的思路一样——传 ID 不传 blob。
差距在哪:新手想到的是直接传图片——这是最暴力也最浪费的方式。高手给出了引用传递、结构化摘要、多分辨率三种策略,核心思想是“尽可能用低成本的信息载体替代高成本的原始数据”。面试官考的是你对多模态系统中数据流转的工程化设计能力。
编排与路由
Q:多 Agent 怎么编排的?用的什么编排模式?
来源:百度实习 AI 应用开发一面
新手答:“一个调一个,串行执行。”
高手答:
多 Agent 编排的本质是决定谁在什么时候做什么、信息怎么流转。不同任务复杂度对应不同的编排模式,没有万能方案:
四种核心编排模式:
flowchart TB
subgraph seq["顺序链(Sequential)"]
S1["Agent A"] --> S2["Agent B"] --> S3["Agent C"]
end
subgraph par["并行扇出(Parallel Fan-out)"]
P0["Orchestrator"] --> P1["Agent A"]
P0 --> P2["Agent B"]
P0 --> P3["Agent C"]
P1 --> P4["Aggregator"]
P2 --> P4
P3 --> P4
end
subgraph hier["层级委托(Hierarchical)"]
H0["Supervisor"] --> H1["Sub-Agent 1"]
H0 --> H2["Sub-Agent 2"]
H1 --> H3["Tool Worker"]
end
subgraph router["动态路由(Router)"]
R0["Router Agent"] -->|"意图A"| R1["Agent A"]
R0 -->|"意图B"| R2["Agent B"]
R0 -->|"兜底"| R3["Fallback"]
end
| 编排模式 | 适用场景 | 优点 | 缺点 |
|---|---|---|---|
| 顺序链 | 流程固定、步骤间有依赖 | 简单可控、易调试 | 延迟线性增长、一步出错全链断 |
| 并行扇出 | 子任务独立、可并发 | 总延迟 = 最慢子任务 | 需要聚合逻辑、结果可能冲突 |
| 层级委托 | 复杂任务需要递归拆解 | 灵活、支持动态子任务 | 嵌套深度需限制、token 成本高 |
| 动态路由 | 多意图入口、一对多分发 | 解耦、易扩展新 Agent | 路由准确率是瓶颈 |
工程实现的关键决策:
- 编排层用代码还是模型? 生产环境中,主干流程用代码(状态机/DAG)编排,只在需要灵活判断的节点让模型参与路由决策。纯模型编排的不可控风险太高
- 状态怎么传递? Agent 之间传递结构化的 State 对象(不是自然语言),包含任务上下文、已完成步骤、中间结果。用共享 State Store(如 Redis)或消息传递(如事件总线)实现
- 失败怎么处理? 每个 Agent 节点需要独立的超时和重试策略。关键路径上的 Agent 失败要触发降级或回退,而非让整个编排链崩溃
实际项目中的常见做法:
大多数生产系统是混合编排——主流程用顺序链保证确定性,子任务内部用并行扇出提升效率,复杂决策节点用层级委托处理。纯用一种模式的系统很少见。
差距在哪:新手只想到串行调用——这是最简单的编排模式,且没有容错。高手给出了四种编排模式及其适用场景,且指出生产系统通常是混合编排,关键在于编排层用代码控制主干、状态用结构化对象传递、失败有独立恢复策略。面试官考的是你对多 Agent 系统编排的全局视野。
Q:Multi Agent 系统中 Router 节点依据什么规则把任务分给子 Agent?
来源:淘天 AI Agent 二面
新手答:“根据关键词匹配分发。”
高手答:
Router 是多 Agent 系统的“调度中枢”,它的分发质量直接决定系统上限。分发规则从简单到复杂有三个层次:
| 层次 | 方法 | 原理 | 适用场景 |
|---|---|---|---|
| 规则路由 | 关键词/正则/意图标签匹配 | 预定义路由表,命中即分发 | 意图类型少且边界清晰 |
| 分类器路由 | 轻量分类模型(如 BERT 意图分类器) | 用标注数据训练,输出意图类别 + 置信度 | 意图类型多但有训练数据 |
| LLM 路由 | 让大模型根据任务描述选择子 Agent | Prompt 中列出子 Agent 的能力描述,模型做推理选择 | 开放域任务、难以预定义路由规则 |
生产级 Router 的设计要点:
flowchart TB
Q["用户请求"] --> R{"Router"}
R -->|"规则命中"| A1["快速路由\n(延迟最低)"]
R -->|"规则未命中"| C["分类器路由\n(轻量模型判断)"]
C -->|"置信度 > 阈值"| A2["分发到对应子 Agent"]
C -->|"置信度低"| L["LLM 路由\n(大模型做兜底判断)"]
L --> A3["分发 + 记录到训练集"]
级联路由:先用规则(零延迟),命中就走;未命中再用分类器(毫秒级);分类器置信度低才调 LLM(百毫秒级)。这样 80% 的请求被规则/分类器快速分发,只有边界 case 才用 LLM 做精细判断。
Router 分发信息应包含什么:
路由结果 = {
target_agent: "售后处理 Agent",
confidence: 0.92,
task_summary: "用户要求退货,订单号 xxx",
context_slice: [必要的上下文片段],
fallback_agent: "通用客服 Agent" // 目标 Agent 无法处理时的降级
}
不只是“发给谁”,还要带上任务摘要(避免子 Agent 重新解析原始输入)、上下文切片(只给必要信息,不给全量历史)、和降级路径。
Router 的常见失败模式:
| 失败模式 | 表现 | 解决方案 |
|---|---|---|
| 意图重叠 | 两个子 Agent 都能处理,Router 随机分 | 定义优先级 + 能力边界文档 |
| 意图漂移 | 对话中途用户换了话题,但 Router 没重新判断 | 每轮都重新路由,不只在首轮 |
| 置信度盲区 | 分类器给了 0.5 的置信度,不知道分给谁 | 设阈值兜底到 LLM 路由或人工 |
| 路由死循环 | A 转给 B,B 转给 A | 加路由计数器,超过 N 次强制升级 |
差距在哪:新手只想到关键词匹配——这在复杂场景下很快失效。高手有三层级联路由(规则 → 分类器 → LLM)的架构设计,且考虑了分发信息完整性、降级路径和常见失败模式。面试官考的是你对多 Agent 编排中”调度”这个关键环节的工程化认知。
追问:LLM 路由 vs 规则路由,分别有什么优劣势?
来源:阿里淘天 AI应用开发一面
| 维度 | 规则路由 | LLM 路由 |
|---|---|---|
| 延迟 | 微秒级,近乎零延迟 | 百毫秒~秒级,需要一次 LLM 推理 |
| 成本 | 零额外成本 | 每次路由消耗 token |
| 可解释性 | 完全透明,规则可审计 | 黑箱,模型可能给不出路由理由 |
| 灵活性 | 差,新意图必须手动加规则 | 强,能处理未见过的意图类型 |
| 准确性(边界清晰场景) | 高,精确匹配不出错 | 可能过度推理导致误分发 |
| 准确性(模糊场景) | 低,规则覆盖不到的全部漏掉 | 高,能做语义级理解 |
| 维护成本 | 规则越多越难维护 | 只需维护 Agent 能力描述 |
实际选型建议:不是二选一,而是级联——规则兜已知意图(快+稳),LLM 兜未知意图(灵活),两者互补。
Q:Multi-Agent 中心化编排模式 vs 点对点架构,核心区别和优势是什么?
来源:蚂蚁 AI应用开发 二面
新手答:「中心化就是有一个主 Agent 指挥别人,点对点是大家直接通信。」
高手答:
两种模式的核心区别在于控制权的分布方式:
| 维度 | 中心化编排 | 点对点(P2P) |
|---|---|---|
| 控制权 | 集中在 Orchestrator | 分散在各 Agent |
| 通信模式 | Hub-and-Spoke(星型) | Mesh(网状) |
| 任务分配 | Orchestrator 统一分配 | Agent 间协商或广播 |
| 全局视角 | Orchestrator 掌握全局状态 | 无单一节点有全局视角 |
| 故障影响 | Orchestrator 故障则全局瘫痪 | 单点故障只影响局部 |
中心化编排的核心优势:
- 全局最优调度:Orchestrator 知道所有子 Agent 的能力和当前负载,能做出全局最优的任务分配决策。P2P 模式下每个 Agent 只有局部信息,容易出现任务冲突或重复执行
- 一致性保障:状态集中管理,不会出现「A 以为 B 做完了,B 以为 A 在做」的不一致问题
- 可观测性:所有通信经过中心节点,天然有完整的执行链路日志。P2P 的通信分散在各节点之间,追踪和调试困难
- 流程控制简单:优先级、超时、取消等控制逻辑只需在 Orchestrator 实现一次
P2P 的适用场景:
当 Agent 数量多、任务高度并行、且不需要严格的全局协调时,P2P 更合适——比如信息收集类任务,多个 Agent 各自检索不同来源,结果最后汇总。
生产实践中的选择:绝大多数生产系统选中心化编排。原因很实际——可调试性和可控性远重于理论上的去中心化优势。Agent 系统的核心挑战不是「能不能跑」,而是「出了问题能不能查」,中心化在这方面有压倒性优势。
差距在哪:新手只说了「一个指挥、一个直接通信」的表面区别。高手从控制权分布、全局视角、一致性、可观测性四个维度做了系统对比,且给出了生产实践中的选择建议和理由。面试官考的是你对多 Agent 系统的工程权衡——不是哪个更「先进」,而是哪个更「可控」。
Q:详细介绍多智能体协同策略——三层 Agent(Root / Main+Fallback / Sub-Agent)是怎么配合流转的?主 Agent 越过中间层直接调子 Agent 时,上下文怎么跨层传递?
来源:淘天 Agent 开发
新手答:“Root 分发任务,Main 执行,Sub-Agent 做具体工具调用。上下文通过全局变量共享。”
高手答:
三层 Agent 架构是处理复杂任务时的经典设计——每一层解决不同粒度的问题:
架构设计:
flowchart TD
U["用户请求"] --> R["Root Agent\n意图路由 + 全局编排"]
R -->|"常规路径"| M["Main Agent\n任务执行 + 状态管理"]
R -->|"降级路径"| F["Fallback Agent\n兜底策略"]
M --> S1["Sub-Agent A\n搜索"]
M --> S2["Sub-Agent B\n计算"]
M --> S3["Sub-Agent C\n生成"]
R -.->|"跨层直调"| S1
| 层级 | 职责 | 决策范围 |
|---|---|---|
| Root | 意图分类、路由分发、全局异常处理 | 决定「谁来做」 |
| Main / Fallback | 任务执行、子任务拆解、结果聚合 | 决定「怎么做」 |
| Sub-Agent | 单一能力执行(检索、API 调用、格式化) | 决定「做的细节」 |
流转机制:
- 正常流转:Root 解析意图 → 路由到 Main Agent → Main 拆解为子任务 → 分发给 Sub-Agent → 结果回流到 Main 聚合 → 返回 Root → 输出
- Fallback 触发:Main Agent 执行失败(超时/错误/置信度低)→ Root 降级到 Fallback Agent(简化策略、规则兜底或直接拒绝)
- 跨层直调:Root 识别到某些简单任务不需要经过 Main 的拆解 → 直接调用 Sub-Agent
跨层上下文传递——不是全局变量,是结构化消息:
全局变量共享在多 Agent 系统里是反模式——会导致上下文污染和并发冲突。正确做法是结构化消息传递:
Root → Sub-Agent 直调时的上下文包:
{
"intent": "搜索最新政策", // Root 解析的意图
"constraints": {"时效性": "7天内"}, // Root 提取的约束
"context_snapshot": "用户正在咨询...", // 压缩后的会话摘要
"trace_id": "req-12345" // 全链路追踪 ID
}
关键设计原则:
| 原则 | 做法 |
|---|---|
| 最小上下文 | 每层只传递下一层需要的信息,不传完整对话历史 |
| 结构化而非自由文本 | 用 JSON schema 约束字段,防止信息丢失或格式混乱 |
| 只读快照 | Sub-Agent 拿到的是上下文快照,不能修改上层状态 |
| 结果回传统一格式 | Sub-Agent 返回标准化结果,Main/Root 按需解析 |
差距在哪:新手用全局变量做上下文共享——这在生产中会导致并发冲突和上下文污染。高手用结构化消息传递 + 最小上下文原则,既保证了信息完整性,又避免了跨层耦合。面试官考的是你对多层 Agent 系统的工程化设计能力。
Q:为什么大家都在用 Multi-Agent?从一开始到现在原因是否有变化?
来源:币安 AI大模型实习一面
新手答:“因为单 Agent 做不了复杂任务,所以要拆成多个。”
高手答:
Multi-Agent 的流行原因经历了本质性转变——从“不得不拆”到“拆了更好”:
早期原因(2023)——能力不足的变通方案:
单 Agent 的硬性限制迫使开发者拆分:
- 上下文窗口只有 4K-8K,一个复杂任务的中间状态就能塞满
- 工具调用不稳定,调用链越长出错概率越高
- 推理能力弱,长链路推理容易塌缩
所以当时拆 Multi-Agent 的本质是“降低单次推理的复杂度”——每个 Agent 只做一件小事,降低单点失败率。
现在的原因(2025)——工程最佳实践:
模型能力大幅提升(200K 窗口、稳定工具调用、强推理),单 Agent 理论上能做更多事了。但 Multi-Agent 依然是主流,原因变了:
| 维度 | 早期动机 | 现在动机 |
|---|---|---|
| 上下文 | 窗口太小放不下 | 隔离后每个 Agent 推理质量更高(减少干扰) |
| 专业化 | 模型不够强,需要简化任务 | 针对性 Prompt + 工具集比“全能”更稳定 |
| 并行 | 串行太慢 | 独立子任务并行,总延迟 = 最慢的那个 |
| 可观测性 | 没考虑 | 每个 Agent 可独立追踪、调试、替换 |
| 容错 | 没考虑 | 局部失败不影响全局,可精准重试 |
本质变化:从“能力不足的补丁”变成了“工程最佳实践”。
类比微服务演进:不是因为单体“不能跑”才拆微服务,而是因为分开更好维护、更好扩展、更好监控。Multi-Agent 是同样的逻辑——分离关注点在任何复杂系统里都是对的。
一个反直觉的观察:2025 年模型更强了,但 Multi-Agent 反而更流行了。因为模型能力提升让每个子 Agent 更可靠,Multi-Agent 系统的“通信税”相对于每个 Agent 的产出质量来说变得更值得了。以前拆了可能每个 Agent 都不靠谱,现在拆了每个 Agent 都很稳——拆的收益放大了。
差距在哪:新手只给出了“复杂任务需要拆分”这一个静态理由。高手梳理了 Multi-Agent 流行原因的演化——从被动应对到主动选择,且用微服务类比说清了本质逻辑。面试官考的是你对技术趋势的深度认知——不只是“知道大家在用”,而是“理解为什么在用、为什么现在还在用”。
Q:Multi-Agent 如何通信?不同项目分别用了哪些通信方法?
来源:币安 AI大模型实习一面
新手答:“Agent 之间通过消息传递通信。”
高手答:
Multi-Agent 通信没有唯一标准,不同项目根据设计哲学选了不同方案。关键是理解为什么选这种方式:
通信模式分类:
| 通信模式 | 原理 | 代表项目 | 适合场景 |
|---|---|---|---|
| 结构化消息传递 | JSON 消息体带 task_id/role/payload | OpenAI Agents SDK (Handoff) | 任务明确、Agent 间接口清晰 |
| 共享状态黑板 | 中央 State Store,Agent 订阅/写入 | LangGraph(State 对象)、AutoGen | 需要多 Agent 协作修改同一状态 |
| 文件系统中继 | 通过 .md 文件 / git 传递上下文 | Claude Code(CLAUDE.md + Memory) | 人机混合协作、需要人工审查 |
| 事件驱动 | Pub/Sub 模式,Agent 监听事件触发 | Hermes、企业级 Agent 编排 | 解耦强、Agent 数量多 |
| 函数调用委托 | 主 Agent 直接调用子 Agent 作为“工具” | Claude Code(Agent tool)、OpenClaw | 层级关系明确的主从模式 |
| 开放协议(A2A) | Agent Card + Task 生命周期 + JSON-RPC | Google A2A Protocol | 跨框架、跨组织的 Agent 互操作 |
具体项目对比:
Claude Code:主 Agent 通过 Agent tool 派发子任务(prompt 即通信协议),子 Agent 返回结构化结果。上下文隔离靠独立对话窗口,持久化靠 Memory 文件。通信代价极低——一个函数调用就完成了委托和回收。
Codex:多 Agent 通过 git worktree 隔离工作空间,通信靠 PR/commit message。适合并行开发——本质上是“用版本控制做 Agent 间协调”,天然支持冲突检测和合并。
OpenClaw:分层压缩记忆 + .md 文件作为 human-in-the-loop 审查接口。Agent 间通过事件触发流转,每次流转都经过人工可审查的中间态。
Hermes:情景记忆(Episodic Memory)+ 双索引(语义 + 时间),Agent 间通过事件关联度匹配触发——不是“A 通知 B”,而是“B 订阅了某类事件,A 的输出恰好匹配”。
MCP vs A2A 协议层次区分:
flowchart TB
subgraph horizontal["水平通信(A2A)"]
AG1["Agent A"] <-->|"任务委托/结果回传"| AG2["Agent B"]
AG2 <-->|"协作请求"| AG3["Agent C"]
end
subgraph vertical["垂直连接(MCP)"]
AG1 -->|"调用工具"| T1["数据库"]
AG2 -->|"调用工具"| T2["搜索引擎"]
AG3 -->|"调用工具"| T3["代码执行器"]
end
- MCP:解决 Agent → 工具/资源 的连接,类比 USB 接口接外设
- A2A:解决 Agent → Agent 的跨框架互操作,类比 HTTP 让不同服务互相调用
- 两者协同:A2A 负责水平通信(Agent 间委托任务),MCP 负责垂直连接(Agent 调工具)
A2A 核心设计:Agent Card(/.well-known/agent.json 声明能力)→ Task 生命周期(submitted → working → completed)→ 支持多轮交互和长时间运行任务。
差距在哪:新手只说”消息传递”——这等于没说。高手分析了六种通信模式各自的适用场景,且用具体项目对比说明了设计背后的取舍。面试官考的是你对 Agent 生态的广度认知——不只是”用过一个框架”,而是理解不同框架的通信哲学差异。
Q:如果让两个不同的 Agent 产品进行对话(比如 Claude Code 和 Cursor),在协议层面应该怎么做?
来源:字节TikTok AI应用开发一面
新手答:”用 API 互相调用呗,一个 Agent 调另一个的接口。”
高手答: 这道题考的是跨产品 Agent 互操作(Interoperability)——两个完全独立的 Agent 产品如何协作,而不是在同一框架内的子 Agent 通信。
协议层选型:
- A2A(Agent-to-Agent Protocol):Google 主导的开放协议,专为跨产品 Agent 互操作设计
- Agent Card:每个 Agent 在
/.well-known/agent.json发布自己的能力声明(输入格式、输出类型、认证方式) - Task 生命周期:submitted → working → input-required → completed,支持异步长任务
- SSE 流式推送 + 多轮交互,天然支持对话式协作
- Agent Card:每个 Agent 在
-
MCP(Model Context Protocol):适合工具/资源暴露,但设计上是 Host→Client→Server 单向调用,不是双向 Agent 对话
- 纯 REST API 对接:最简单,但耦合度高,需要双方约定接口规范,无法利用标准化协议带来的互操作生态
实现关键点:
- 身份认证:A2A 通过 Agent Card 内的
securitySchemes声明 OAuth2/API Key,跨产品必须解决鉴权 - 能力协商:A2A 的 Agent Card
skills字段描述能力,调用方根据 Card 决定怎么调用,而不是硬编码 - 状态传递:Task 的
contextId支持多轮对话上下文,每个消息带role: agent,区分于用户消息 - 降级策略:对方不支持 A2A 时,退化为标准 HTTP + JSON 协议,保留基础互操作能力
差距在哪:面试官考的是你对”同框架内的子 Agent 通信”和”跨产品 Agent 互操作”这两个不同层次问题的区分。A2A 的价值在于标准化——就像 HTTP 统一了 Web,A2A 试图统一 Agent 生态的互调方式。
Q:智能体可信通信怎么实现?
来源:字节AI开发二面
新手答:“用 HTTPS 加密通信就行了。”
高手答:
Agent 间可信通信不只是传输层加密,还涉及身份认证和内容完整性:
- 身份认证:每个 Agent 需要有独立身份标识(类似 mTLS 的证书体系),通信前互相验证“你真的是你声称的那个 Agent”
- 消息签名:Agent 发出的每条消息附带数字签名,接收方可验证消息未被篡改、确实来自声称的发送者
- 能力声明与授权:Agent A 调用 Agent B 前,B 需要验证 A 是否有权限请求该能力(类似 OAuth scope)
- 防 Prompt 注入:Agent A 传给 Agent B 的内容可能被恶意构造(间接注入),B 需要对输入做净化和边界隔离
- 审计链路:所有 Agent 间通信需要留痕(who→whom, when, what),支持事后追溯责任
- 信任传递控制:Agent A 信任 Agent B,B 信任 C,不代表 A 自动信任 C——需要显式信任链管理
差距在哪:面试官考察你对“Agent 是独立决策实体”的安全意识——不像微服务在同一可信域内,Agent 可能来自不同组织/不同供应商,必须零信任设计。
这类题的答题模式
多智能体协作题的核心是系统设计思维:
1. 角色必须隔离——职责不交叉,输出格式固定
2. 通信必须结构化——JSON 消息体,带 task_id,方便追踪
3. 协作拓扑按场景选——顺序链、分治、多轮对话各有适用场景
4. 冲突必须有收敛机制——仲裁者、轮次限制、人工升级
5. 共享状态用黑板模式——读写隔离、事件驱动、版本控制
面试官听到“写完发给另一个看”就知道你只跑过 Demo。听到角色隔离、结构化通信、状态机编排、黑板模式,才会觉得你做过需要多组件协作的真实系统。
下一篇建议继续看: