Agent 面试通关 / 14

各公司面试偏好：按公司备战的高频题速查

每家公司的 Agent 面试都有自己的“性格”——腾讯喜欢从 RAG 系统设计往下挖，蚂蚁全栈考察从 Prompt 到 AI Coding 测试，字节侧重记忆与上下文工程，淘宝闪购则专注 Human-in-the-Loop 和异常管控。

本文基于 245+ 道真实面试题的来源统计，帮你识别目标公司的考察重心，精准备战。

总览：各公司考察维度热力图

公司	题量	最高频维度	考察风格
腾讯	51	RAG(16) > 评估(8) > 工程(6)	系统设计能力，从架构到细节逐层追问
蚂蚁集团	48	工具(7) > 容错(6) > RAG(6)	全栈工程考察，AI Coding 实操
字节跳动	31	记忆(7) > 架构/Prompt/RAG(各4)	项目深挖 + 工程踩坑经验
阿里-淘天	26	记忆(6) > RAG(4) > 架构(3)	系统设计 + 理论深度，追问细节
快手	18	训练(6) > RAG(5)	算法基础扎实，工程+模型并重
淘宝闪购	17	项目拷打(12) > 架构(2)	几乎全程项目深挖，无八股
阿里国际	14+	训练(10+) > 工具(2) > RAG(2)	RL/微调深度 + GRPO 必考，近期也考 Agent 工程
高德	12	RAG(4) > 记忆(3)	实习题为主，MCP 协议+会话记忆
携程	5	RAG(5)	RAG 基础，适合入门准备
bilibili	4	分散	Agent 框架实战，项目驱动
百度	4	工程(3)	前后端全栈，SSE/缓存等工程题

腾讯（51 题）

面试风格：腾讯 Agent 面试覆盖面最广，从终面到一面、从 AI 应用开发到通用 Agent 岗，都有大量真题。特点是系统设计能力考察突出——不只问“是什么”，更问“怎么设计”“为什么这么选”。RAG 方向出题量远超其他公司。

高频考察维度：

维度	题量	代表性问题
RAG 与检索	16	Embedding/ReRank 微调、双路召回 TopK 确定、GraphRAG 三元组抽取、PDF Layout 解析
评估与全局观	8	量化评估除准确率外还看什么、线上最难监控的指标、Agent 端到端成功率量化
工程化踩坑	6	Demo 惊艳上线不稳定的原因、AI Coding 实践、Code Agent 优缺点
记忆与上下文	5	长上下文不丢信息、模糊需求处理、三类上下文优先级
架构选型	4	ReAct vs Plan-Execute（终面）、ToT 线上化成本、路径震荡防范
工具管理	4	参数校验、百级工具路由、多工具调度

备考重点：

RAG 全链路是必考——从 chunk 设计到 Embedding 选型到 ReRank 微调，准备要深
评估体系设计是高频追问——不只说“准确率”，要能设计完整评测方案
终面偏架构选型，一二面偏工程实践

蚂蚁集团（48 题）

面试风格：蚂蚁的 Agent 面试覆盖维度最全面（横跨 11 个维度），且是唯一大量考察 AI Coding 测试（代码插桩、覆盖率）的公司。Prompt 工程和 Skills 机制也是蚂蚁特色题。面试分多个团队（智能体平台、AI Coding、AI 应用开发），侧重点略有不同。

高频考察维度：

维度	题量	代表性问题
工具管理	7	MCP Server 构建、Skill vs MCP 区别、参数幻觉修正、工具 token 优化
容错与鲁棒性	6	幻觉治理手段、安全权限管理、Human-in-the-Loop、Self-Reflection
RAG 与检索	6	文档召回率提升、向量 vs 关键词检索、GraphRAG 应用
架构选型	5	Skill/MCP/Rule 区别、微服务接入 Agent、ReAct 原理
Prompt 工程	4	Skills 原理、Claude Code 创新设计、好/差 Prompt 区别
AI 代码测试	4	分支覆盖率插桩、前置分析、代码过滤策略
记忆与上下文	4	上下文工程、Prompt Caching、长期记忆设计

备考重点：

蚂蚁特色题：Skills 机制、SDD（Skill Driven Development）、AI Coding 测试——其他公司几乎不考
工具管理和容错是蚂蚁高频区，准备 MCP 协议细节和安全权限设计
如果面的是 AI Coding 方向，11-ai-code-testing 维度必看

字节跳动（31 题）

面试风格：字节（含抖音基础架构）的 Agent 面试最重视记忆与上下文工程，出题量是所有公司中最高的。同时 Prompt 工程方向出题多——Skills 系统设计、MCP vs Skills 区别是字节高频题。面试风格偏向项目深挖+工程踩坑。

高频考察维度：

维度	题量	代表性问题
记忆与上下文	7	对话太长怎么办、上下文污染防治、长短期记忆、Claude Code 记忆架构
架构选型	4	Agent 学术组成、设计范式、模型 vs Agent 区别
Prompt 工程	4	提示词模板构建、Skill 系统设计、LobeChat 插件 vs Skills
RAG 与检索	4	查询改写、并行意图识别、Claude Code 为什么不用 RAG
工程化踩坑	4	成本控制、API 延迟、开发流程、AI Coding 检查效率

备考重点：

上下文工程是字节核心考点——准备好滑动窗口、摘要压缩、上下文污染防治的完整方案
Prompt 工程和 Skills 机制是字节特色——需要理解 Skills 的三层本质（模板→知识封装→能力树）
字节喜欢问”为什么”和”踩过什么坑”，准备具体案例比背八股更有效
业务认知是隐藏考点：字节面试官会问”扣子是 Agent 平台还是工作流平台？””字节做 AI 最大的瓶颈？”——面前准备好豆包、扣子（Coze）、即梦等核心 AI 产品的定位和差异

阿里-淘天（26 题）

面试风格：淘天的 Agent 面试理论深度要求高，喜欢追问底层原理（Attention 稀释、平方复杂度工程影响），同时系统设计题偏大——“设计一个智能导购助手”这类综合题是淘天特色。追问细节很深。

高频考察维度：

维度	题量	代表性问题
记忆与上下文	6	极度模糊表达处理、主动澄清 vs 历史推断、摘要丢细节怎么办
RAG 与检索	4	查询改写提升精准度原理、BM25+RRF 调优、召回不准排查
架构选型	3	逻辑塌缩纠正、分布式智能导购架构、CoT vs ReAct
工具管理	3	100+工具召回偏差、外部数据格式自动映射、跨协议工具注册
容错与鲁棒性	3	思维死循环检测、RAG 不能彻底解决幻觉、全链路降幻觉

备考重点：

准备好“设计一个XX Agent”的系统设计题——淘天喜欢出综合架构题
理论深度要求高——Attention 机制、Token 稀释等底层原理要能讲清楚
记忆与上下文是淘天高频——模糊需求处理、摘要压缩是必考点

快手（18 题）

面试风格：快手面试模型层和工程基础并重。训练与模型方向出题量高（RLHF、GRPO、SFT 选型），同时 RAG 全链路也是重点。工程基础题（布隆过滤器、索引失效、分布式限流）比其他公司多。

高频考察维度：

维度	题量	代表性问题
训练与模型	6	RLHF 奖励模型训练、SFT vs 蒸馏 vs GRPO 选型、GRPO Loss 函数
RAG 与检索	5	父子索引、BM25+向量组合、Rerank TopK 截断、端到端性能优化
容错与鲁棒性	2	Prompt 注入防御、工具调用安全控制
工程化踩坑	2	布隆过滤器、数据库索引失效

备考重点：

快手特色：RLHF/GRPO 训练细节是必考——奖励函数设计、全0/全1 reward 处理、SFT 不够时什么时候上 RL
RAG 全链路要熟——从父子索引到 BM25 到 Rerank 截断，每一步都可能追问
准备传统工程基础题——布隆过滤器、分布式限流、数据库索引，快手比其他公司更重视这些

淘宝闪购（17 题）

面试风格：淘宝闪购是项目拷打最极致的公司——全程围绕 Agent 工程经验展开，几乎无纯八股。面试官拿着简历从框架选型到线上效果一层一层挖。特别关注安全管控（Human-in-the-Loop、权限控制、异常管控）。

高频考察维度：

维度	题量	代表性问题
简历项目拷打	12	框架选型 trade-off、意图识别实现、知识库构建、分块策略、工具调用正确率
架构选型	2	Agent 设计范式、LangChain vs LangGraph
容错与鲁棒性	2	Human-in-the-Loop 流程、高风险异常管控

备考重点：

核心策略：准备好你的 Agent 项目，能从头讲到尾，每个技术选型说得出 trade-off
Human-in-the-Loop 和异常管控是淘宝闪购必考——操作分级、熔断机制、审计日志都要准备
面试官会追问“为什么这么做”——每个决策准备好 trade-off 表述比准备“最优答案”更重要
坦诚讲系统不足比吹牛更加分——“你的 Agent 还有哪些没优化的”几乎必问

阿里国际（14+ 考点）

面试风格：阿里国际面试最侧重模型训练与优化——微调方法、RL 训练（GRPO 深度追问）、推理加速是核心。但近期面试也开始考察 Agent 工程能力（多轮工具调用、多智能体、上下文管理）。整体偏算法研发，对模型层理解要求高，追问极深。

高频考察维度：

维度	题量	代表性问题
训练与模型	10+	LoRA vs 全参微调、PPO vs GRPO 深度对比、GRPO Loss/Advantages/信用分配、重要性采样失效场景、KL散度区别、SFT+蒸馏+GRPO 选型、推理加速部署、GRPO训练监控指标
RAG 与检索	2	向量数据库选型（不同规模方案）、Embedding 升级后索引一致性
工具管理	2	Agent 多轮工具调用挑战、Skill 描述过长导致上下文爆炸
评估与全局观	1	调优 case + 评测集构建（规模/分布/baseline 三件套）
多智能体协作	1	Claude Code 是 multi 还是 single agent
工程化踩坑	1	数据量/QPS 增大后架构改进、硬件选型

GRPO 是阿里国际的必考核心（多次出现、追问极深）：

必须准备的 GRPO 知识点：
├── Loss 函数：clipped surrogate objective + KL penalty
├── Advantages 计算：组内归一化（无 Critic），为什么不直接用 reward
├── 信用分配：序列级奖励如何分配到 token 级
├── 重要性采样：为什么需要、策略差异大时 IS 失效怎么办
├── KL 散度：GRPO vs PPO 的 KL 计算有什么区别（per-token vs 序列级）
├── 训练监控：reward mean/std、KL divergence、policy entropy、gradient norm
└── 技术选型：什么时候用 SFT、什么时候蒸馏、什么时候上 GRPO

备考重点：

GRPO 深度是第一优先级——不是”知道 GRPO 是什么”就够，要能讲清 Loss 推导、Advantages 归一化原理、信用分配机制、重要性采样局限性
训练三件套必背：LoRA 原理与适用场景（A/B 矩阵初始化+秩选择）、PPO vs DPO vs GRPO 对比、SFT 什么时候不够
推理加速技术要熟——算子融合、KV Cache、量化部署、IO 优化
Agent 工程也开始考了：多轮工具调用挑战（状态管理、错误传播、上下文膨胀）、Claude Code 架构理解
如果面的是应用开发方向，RAG（向量数据库选型）和评估（评测集构建）也要准备

高德（12 题）

面试风格：高德面试以实习岗为主，题目侧重工程实现细节——MCP 协议完整调用过程、会话记忆具体实现、滑动窗口设几轮。适合实习生备战。

高频考察维度：

维度	题量	代表性问题
RAG 与检索	4	BM25+向量多路检索、Embedding 模型选型、知识库整体设计、分块策略
记忆与上下文	3	会话记忆实现（滑动窗口+摘要压缩）、话题切换记忆设计
工具管理	2	MCP 协议完整调用过程、意图到工具参数的映射
Prompt 工程	2	Skills 本质理解、Claude Code 源码设计哲学

备考重点：

MCP 协议从 Host→Client→Server 的完整链路是高德特色题
会话记忆的具体实现要准备——不只说“用滑动窗口”，要说清楚窗口设几轮、摘要怎么触发
Prompt 工程追问较深——Skills 的三层理解（模板→知识封装→能力树）要能讲清

携程（5 题）

面试风格：携程实习面试聚焦 RAG 基础，题目相对入门。适合刚开始准备 Agent 面试的同学练手。

代表性问题：

如何向非技术人员解释 RAG？
RAG 检索到文档很多但回答质量差，怎么排查？
什么是余弦相似度？在 RAG 中做什么？
什么是嵌入（Embedding）？为什么需要向量化？

备考重点：RAG 基础概念要能“用人话讲清楚”——面试官可能考察你解释技术概念的能力。

bilibili（4 题）

面试风格：B 站 AI 研发实习面试项目驱动，围绕科研辅助 Agent 设计展开，也会考 subagent 拆分和 LangGraph 实战。

代表性问题：

如果设计一个科研辅助 Agent，整体流程怎么设计？
什么时候该用 subagent？主 Agent 和子 Agent 共用上下文吗？
LangGraph 开发中遇到最大的困难？
Deep Research 和普通 RAG 的区别？

备考重点：准备一个“设计XX Agent”的完整方案——感知、规划、记忆、执行四模块。

百度（4 题）

面试风格：百度实习面试偏工程化——多 Agent 编排、前端 SSE 处理、资源缓存等实际开发问题。

代表性问题：

多 Agent 怎么编排？用的什么编排模式？
AI 应用的前端资源缓存怎么配的？
AI 应用中 SSE 流式数据怎么处理？数据格式是什么？

备考重点：前后端全栈能力，SSE 流式处理和缓存策略要能讲实现细节。

备战策略总结

通用高频维度（所有公司都考）：

RAG 与检索——几乎每家都问，从 chunk 到 Embedding 到 Rerank
架构选型——ReAct vs Plan-Execute、Agent 设计范式
记忆与上下文——长对话、摘要压缩、模糊需求

公司特色维度（针对性准备）：

面蚂蚁 → 额外准备 Prompt 工程 + AI 代码测试
面快手/阿里国际 → 额外准备训练与模型（RLHF/GRPO）
面淘宝闪购 → 额外准备项目拷打 + 容错（HiL、异常管控）
面腾讯 → 额外准备 RAG 与检索（深度，不止基础）
面字节 → 额外准备 Prompt 工程（Skills 系统设计）

这篇文章有帮助吗？

| GitHub 留言