Agent 面试通关 / 14
各公司面试偏好:按公司备战的高频题速查
每家公司的 Agent 面试都有自己的“性格”——腾讯喜欢从 RAG 系统设计往下挖,蚂蚁全栈考察从 Prompt 到 AI Coding 测试,字节侧重记忆与上下文工程,淘宝闪购则专注 Human-in-the-Loop 和异常管控。
本文基于 245+ 道真实面试题的来源统计,帮你识别目标公司的考察重心,精准备战。
总览:各公司考察维度热力图
| 公司 | 题量 | 最高频维度 | 考察风格 |
|---|---|---|---|
| 腾讯 | 51 | RAG(16) > 评估(8) > 工程(6) | 系统设计能力,从架构到细节逐层追问 |
| 蚂蚁集团 | 48 | 工具(7) > 容错(6) > RAG(6) | 全栈工程考察,AI Coding 实操 |
| 字节跳动 | 31 | 记忆(7) > 架构/Prompt/RAG(各4) | 项目深挖 + 工程踩坑经验 |
| 阿里-淘天 | 26 | 记忆(6) > RAG(4) > 架构(3) | 系统设计 + 理论深度,追问细节 |
| 快手 | 18 | 训练(6) > RAG(5) | 算法基础扎实,工程+模型并重 |
| 淘宝闪购 | 17 | 项目拷打(12) > 架构(2) | 几乎全程项目深挖,无八股 |
| 阿里国际 | 14+ | 训练(10+) > 工具(2) > RAG(2) | RL/微调深度 + GRPO 必考,近期也考 Agent 工程 |
| 高德 | 12 | RAG(4) > 记忆(3) | 实习题为主,MCP 协议+会话记忆 |
| 携程 | 5 | RAG(5) | RAG 基础,适合入门准备 |
| bilibili | 4 | 分散 | Agent 框架实战,项目驱动 |
| 百度 | 4 | 工程(3) | 前后端全栈,SSE/缓存等工程题 |
腾讯(51 题)
面试风格:腾讯 Agent 面试覆盖面最广,从终面到一面、从 AI 应用开发到通用 Agent 岗,都有大量真题。特点是系统设计能力考察突出——不只问“是什么”,更问“怎么设计”“为什么这么选”。RAG 方向出题量远超其他公司。
高频考察维度:
| 维度 | 题量 | 代表性问题 |
|---|---|---|
| RAG 与检索 | 16 | Embedding/ReRank 微调、双路召回 TopK 确定、GraphRAG 三元组抽取、PDF Layout 解析 |
| 评估与全局观 | 8 | 量化评估除准确率外还看什么、线上最难监控的指标、Agent 端到端成功率量化 |
| 工程化踩坑 | 6 | Demo 惊艳上线不稳定的原因、AI Coding 实践、Code Agent 优缺点 |
| 记忆与上下文 | 5 | 长上下文不丢信息、模糊需求处理、三类上下文优先级 |
| 架构选型 | 4 | ReAct vs Plan-Execute(终面)、ToT 线上化成本、路径震荡防范 |
| 工具管理 | 4 | 参数校验、百级工具路由、多工具调度 |
备考重点:
- RAG 全链路是必考——从 chunk 设计到 Embedding 选型到 ReRank 微调,准备要深
- 评估体系设计是高频追问——不只说“准确率”,要能设计完整评测方案
- 终面偏架构选型,一二面偏工程实践
蚂蚁集团(48 题)
面试风格:蚂蚁的 Agent 面试覆盖维度最全面(横跨 11 个维度),且是唯一大量考察 AI Coding 测试(代码插桩、覆盖率)的公司。Prompt 工程和 Skills 机制也是蚂蚁特色题。面试分多个团队(智能体平台、AI Coding、AI 应用开发),侧重点略有不同。
高频考察维度:
| 维度 | 题量 | 代表性问题 |
|---|---|---|
| 工具管理 | 7 | MCP Server 构建、Skill vs MCP 区别、参数幻觉修正、工具 token 优化 |
| 容错与鲁棒性 | 6 | 幻觉治理手段、安全权限管理、Human-in-the-Loop、Self-Reflection |
| RAG 与检索 | 6 | 文档召回率提升、向量 vs 关键词检索、GraphRAG 应用 |
| 架构选型 | 5 | Skill/MCP/Rule 区别、微服务接入 Agent、ReAct 原理 |
| Prompt 工程 | 4 | Skills 原理、Claude Code 创新设计、好/差 Prompt 区别 |
| AI 代码测试 | 4 | 分支覆盖率插桩、前置分析、代码过滤策略 |
| 记忆与上下文 | 4 | 上下文工程、Prompt Caching、长期记忆设计 |
备考重点:
- 蚂蚁特色题:Skills 机制、SDD(Skill Driven Development)、AI Coding 测试——其他公司几乎不考
- 工具管理和容错是蚂蚁高频区,准备 MCP 协议细节和安全权限设计
- 如果面的是 AI Coding 方向,11-ai-code-testing 维度必看
字节跳动(31 题)
面试风格:字节(含抖音基础架构)的 Agent 面试最重视记忆与上下文工程,出题量是所有公司中最高的。同时 Prompt 工程方向出题多——Skills 系统设计、MCP vs Skills 区别是字节高频题。面试风格偏向项目深挖+工程踩坑。
高频考察维度:
| 维度 | 题量 | 代表性问题 |
|---|---|---|
| 记忆与上下文 | 7 | 对话太长怎么办、上下文污染防治、长短期记忆、Claude Code 记忆架构 |
| 架构选型 | 4 | Agent 学术组成、设计范式、模型 vs Agent 区别 |
| Prompt 工程 | 4 | 提示词模板构建、Skill 系统设计、LobeChat 插件 vs Skills |
| RAG 与检索 | 4 | 查询改写、并行意图识别、Claude Code 为什么不用 RAG |
| 工程化踩坑 | 4 | 成本控制、API 延迟、开发流程、AI Coding 检查效率 |
备考重点:
- 上下文工程是字节核心考点——准备好滑动窗口、摘要压缩、上下文污染防治的完整方案
- Prompt 工程和 Skills 机制是字节特色——需要理解 Skills 的三层本质(模板→知识封装→能力树)
- 字节喜欢问”为什么”和”踩过什么坑”,准备具体案例比背八股更有效
- 业务认知是隐藏考点:字节面试官会问”扣子是 Agent 平台还是工作流平台?””字节做 AI 最大的瓶颈?”——面前准备好豆包、扣子(Coze)、即梦等核心 AI 产品的定位和差异
阿里-淘天(26 题)
面试风格:淘天的 Agent 面试理论深度要求高,喜欢追问底层原理(Attention 稀释、平方复杂度工程影响),同时系统设计题偏大——“设计一个智能导购助手”这类综合题是淘天特色。追问细节很深。
高频考察维度:
| 维度 | 题量 | 代表性问题 |
|---|---|---|
| 记忆与上下文 | 6 | 极度模糊表达处理、主动澄清 vs 历史推断、摘要丢细节怎么办 |
| RAG 与检索 | 4 | 查询改写提升精准度原理、BM25+RRF 调优、召回不准排查 |
| 架构选型 | 3 | 逻辑塌缩纠正、分布式智能导购架构、CoT vs ReAct |
| 工具管理 | 3 | 100+工具召回偏差、外部数据格式自动映射、跨协议工具注册 |
| 容错与鲁棒性 | 3 | 思维死循环检测、RAG 不能彻底解决幻觉、全链路降幻觉 |
备考重点:
- 准备好“设计一个XX Agent”的系统设计题——淘天喜欢出综合架构题
- 理论深度要求高——Attention 机制、Token 稀释等底层原理要能讲清楚
- 记忆与上下文是淘天高频——模糊需求处理、摘要压缩是必考点
快手(18 题)
面试风格:快手面试模型层和工程基础并重。训练与模型方向出题量高(RLHF、GRPO、SFT 选型),同时 RAG 全链路也是重点。工程基础题(布隆过滤器、索引失效、分布式限流)比其他公司多。
高频考察维度:
| 维度 | 题量 | 代表性问题 |
|---|---|---|
| 训练与模型 | 6 | RLHF 奖励模型训练、SFT vs 蒸馏 vs GRPO 选型、GRPO Loss 函数 |
| RAG 与检索 | 5 | 父子索引、BM25+向量组合、Rerank TopK 截断、端到端性能优化 |
| 容错与鲁棒性 | 2 | Prompt 注入防御、工具调用安全控制 |
| 工程化踩坑 | 2 | 布隆过滤器、数据库索引失效 |
备考重点:
- 快手特色:RLHF/GRPO 训练细节是必考——奖励函数设计、全0/全1 reward 处理、SFT 不够时什么时候上 RL
- RAG 全链路要熟——从父子索引到 BM25 到 Rerank 截断,每一步都可能追问
- 准备传统工程基础题——布隆过滤器、分布式限流、数据库索引,快手比其他公司更重视这些
淘宝闪购(17 题)
面试风格:淘宝闪购是项目拷打最极致的公司——全程围绕 Agent 工程经验展开,几乎无纯八股。面试官拿着简历从框架选型到线上效果一层一层挖。特别关注安全管控(Human-in-the-Loop、权限控制、异常管控)。
高频考察维度:
| 维度 | 题量 | 代表性问题 |
|---|---|---|
| 简历项目拷打 | 12 | 框架选型 trade-off、意图识别实现、知识库构建、分块策略、工具调用正确率 |
| 架构选型 | 2 | Agent 设计范式、LangChain vs LangGraph |
| 容错与鲁棒性 | 2 | Human-in-the-Loop 流程、高风险异常管控 |
备考重点:
- 核心策略:准备好你的 Agent 项目,能从头讲到尾,每个技术选型说得出 trade-off
- Human-in-the-Loop 和异常管控是淘宝闪购必考——操作分级、熔断机制、审计日志都要准备
- 面试官会追问“为什么这么做”——每个决策准备好 trade-off 表述比准备“最优答案”更重要
- 坦诚讲系统不足比吹牛更加分——“你的 Agent 还有哪些没优化的”几乎必问
阿里国际(14+ 考点)
面试风格:阿里国际面试最侧重模型训练与优化——微调方法、RL 训练(GRPO 深度追问)、推理加速是核心。但近期面试也开始考察 Agent 工程能力(多轮工具调用、多智能体、上下文管理)。整体偏算法研发,对模型层理解要求高,追问极深。
高频考察维度:
| 维度 | 题量 | 代表性问题 |
|---|---|---|
| 训练与模型 | 10+ | LoRA vs 全参微调、PPO vs GRPO 深度对比、GRPO Loss/Advantages/信用分配、重要性采样失效场景、KL散度区别、SFT+蒸馏+GRPO 选型、推理加速部署、GRPO训练监控指标 |
| RAG 与检索 | 2 | 向量数据库选型(不同规模方案)、Embedding 升级后索引一致性 |
| 工具管理 | 2 | Agent 多轮工具调用挑战、Skill 描述过长导致上下文爆炸 |
| 评估与全局观 | 1 | 调优 case + 评测集构建(规模/分布/baseline 三件套) |
| 多智能体协作 | 1 | Claude Code 是 multi 还是 single agent |
| 工程化踩坑 | 1 | 数据量/QPS 增大后架构改进、硬件选型 |
GRPO 是阿里国际的必考核心(多次出现、追问极深):
必须准备的 GRPO 知识点:
├── Loss 函数:clipped surrogate objective + KL penalty
├── Advantages 计算:组内归一化(无 Critic),为什么不直接用 reward
├── 信用分配:序列级奖励如何分配到 token 级
├── 重要性采样:为什么需要、策略差异大时 IS 失效怎么办
├── KL 散度:GRPO vs PPO 的 KL 计算有什么区别(per-token vs 序列级)
├── 训练监控:reward mean/std、KL divergence、policy entropy、gradient norm
└── 技术选型:什么时候用 SFT、什么时候蒸馏、什么时候上 GRPO
备考重点:
- GRPO 深度是第一优先级——不是”知道 GRPO 是什么”就够,要能讲清 Loss 推导、Advantages 归一化原理、信用分配机制、重要性采样局限性
- 训练三件套必背:LoRA 原理与适用场景(A/B 矩阵初始化+秩选择)、PPO vs DPO vs GRPO 对比、SFT 什么时候不够
- 推理加速技术要熟——算子融合、KV Cache、量化部署、IO 优化
- Agent 工程也开始考了:多轮工具调用挑战(状态管理、错误传播、上下文膨胀)、Claude Code 架构理解
- 如果面的是应用开发方向,RAG(向量数据库选型)和评估(评测集构建)也要准备
高德(12 题)
面试风格:高德面试以实习岗为主,题目侧重工程实现细节——MCP 协议完整调用过程、会话记忆具体实现、滑动窗口设几轮。适合实习生备战。
高频考察维度:
| 维度 | 题量 | 代表性问题 |
|---|---|---|
| RAG 与检索 | 4 | BM25+向量多路检索、Embedding 模型选型、知识库整体设计、分块策略 |
| 记忆与上下文 | 3 | 会话记忆实现(滑动窗口+摘要压缩)、话题切换记忆设计 |
| 工具管理 | 2 | MCP 协议完整调用过程、意图到工具参数的映射 |
| Prompt 工程 | 2 | Skills 本质理解、Claude Code 源码设计哲学 |
备考重点:
- MCP 协议从 Host→Client→Server 的完整链路是高德特色题
- 会话记忆的具体实现要准备——不只说“用滑动窗口”,要说清楚窗口设几轮、摘要怎么触发
- Prompt 工程追问较深——Skills 的三层理解(模板→知识封装→能力树)要能讲清
携程(5 题)
面试风格:携程实习面试聚焦 RAG 基础,题目相对入门。适合刚开始准备 Agent 面试的同学练手。
代表性问题:
- 如何向非技术人员解释 RAG?
- RAG 检索到文档很多但回答质量差,怎么排查?
- 什么是余弦相似度?在 RAG 中做什么?
- 什么是嵌入(Embedding)?为什么需要向量化?
备考重点:RAG 基础概念要能“用人话讲清楚”——面试官可能考察你解释技术概念的能力。
bilibili(4 题)
面试风格:B 站 AI 研发实习面试项目驱动,围绕科研辅助 Agent 设计展开,也会考 subagent 拆分和 LangGraph 实战。
代表性问题:
- 如果设计一个科研辅助 Agent,整体流程怎么设计?
- 什么时候该用 subagent?主 Agent 和子 Agent 共用上下文吗?
- LangGraph 开发中遇到最大的困难?
- Deep Research 和普通 RAG 的区别?
备考重点:准备一个“设计XX Agent”的完整方案——感知、规划、记忆、执行四模块。
百度(4 题)
面试风格:百度实习面试偏工程化——多 Agent 编排、前端 SSE 处理、资源缓存等实际开发问题。
代表性问题:
- 多 Agent 怎么编排?用的什么编排模式?
- AI 应用的前端资源缓存怎么配的?
- AI 应用中 SSE 流式数据怎么处理?数据格式是什么?
备考重点:前后端全栈能力,SSE 流式处理和缓存策略要能讲实现细节。
备战策略总结
通用高频维度(所有公司都考):
- RAG 与检索——几乎每家都问,从 chunk 到 Embedding 到 Rerank
- 架构选型——ReAct vs Plan-Execute、Agent 设计范式
- 记忆与上下文——长对话、摘要压缩、模糊需求
公司特色维度(针对性准备):