算法岗基础 / 01

什么是算法岗

这里说的算法岗,主要指互联网和产业公司里的业务算法工程岗位。它和程序设计竞赛里的“算法题”不是一个含义:后者更关注数据结构、复杂度和代码实现,前者更关注业务目标、数据链路、模型策略、实验评估和线上系统。

算法岗的核心任务不是“训练一个模型”,而是围绕一个业务目标持续做决策优化。推荐系统要提升用户消费效率,广告系统要平衡收入、体验和预算,风控系统要识别风险并控制误伤,物流调度要提高履约效率,内容安全要提升审核质量并降低人审成本。

算法岗到底交付什么

算法岗常见交付物包括五类:

  • 预测模型:比如 CTR/CVR 预估、ETA 预估、风险概率、内容质量分、用户流失概率。
  • 排序策略:比如召回、粗排、精排、多样性、重排、过滤和兜底规则。
  • 决策系统:比如预算分配、出价、补贴、调度、排班、资源分配。
  • 实验结论:比如 A/B 实验、ablation、收益归因、负向指标分析。
  • 线上闭环:比如特征监控、模型版本、降级策略、反馈回流和效果复盘。

面试里如果只说“我用了 Transformer / DIN / XGBoost”,通常不够。面试官更想听你如何定义问题、为什么这么建模、指标怎么设、线上收益怎么证明、失败后怎么复盘。

业务算法和纯模型研究的区别

业务算法不是单纯追求模型指标最高,而是要在约束下解决问题。

例如推荐系统里,AUC 提升不一定代表线上消费提升;广告出价里,eCPM 提升不一定代表长期收益提升;风控里,召回率提升可能带来误伤;调度里,最短路径不一定是整体最优,因为还要考虑未来订单和骑手体验。

所以算法岗要同时回答三件事:

  1. 预测准不准:模型能不能刻画现实。
  2. 决策好不好:模型输出进入策略后是否提升业务。
  3. 系统稳不稳:线上是否可解释、可监控、可回滚。

常见方向

方向 典型问题 核心能力
推荐 / 搜索 给用户展示什么、怎么排序 召回、排序、特征、样本、实验
广告投放 给谁投、出多少钱、预算怎么花 CTR/CVR、出价、pacing、ROI
风控 / 内容安全 什么是风险、如何拦截且少误伤 规则、模型、审核、人机闭环
运筹 / 调度 人、货、车、单怎么分配 建模、约束、优化、启发式
NLP / AIGC 文本理解、生成、评测和知识增强 表征、RAG、评测、成本控制
增长 / 业务算法 权益、补贴、触达怎么最有效 因果、uplift、实验、策略

这些方向的方法不同,但底层思路相似:先明确目标,再理解数据,再设计模型或策略,最后用实验和监控证明效果。

面试官为什么总追问业务

算法岗不是只写训练脚本。真实工作里,问题通常不是别人已经定义好的 Kaggle 任务,而是模糊的业务诉求:

  • 用户觉得推荐没意思,怎么定义“没意思”?
  • 广告主说成本高,是出价问题、流量问题还是转化问题?
  • 骑手晚高峰超时,是排班不足、调度不合理还是 ETA 偏乐观?
  • 内容误伤多,是标签问题、模型阈值问题还是审核标准不一致?

因此面试官会追问业务,是为了判断你能不能把模糊问题抽象成可优化的问题。

一个好的算法岗回答框架

遇到任何业务算法问题,可以按这个顺序回答:

  1. 业务目标:到底要提升什么,降低什么。
  2. 指标体系:主指标、过程指标、护栏指标分别是什么。
  3. 数据链路:样本从哪里来,标签怎么定义,有什么偏差。
  4. 算法方案:用模型、规则、优化还是策略组合。
  5. 实验评估:离线怎么验证,线上怎么 A/B。
  6. 工程落地:延迟、稳定性、降级、监控怎么处理。
  7. 复盘迭代:收益来自哪里,失败原因是什么。

常见误区

第一,只讲模型不讲问题。比如“我用了 DeepFM”,但说不清为什么需要 DeepFM,也说不清线上指标是什么。

第二,只讲离线指标不讲线上效果。业务算法最终要进入策略系统,离线 AUC、MAE、F1 都只是中间指标。

第三,不承认约束。真实系统有延迟、预算、稳定性、合规、体验、公平性约束,不是把模型分数最高的结果直接上线。

第四,忽视数据偏差。很多业务数据都是历史策略产生的,不是自然随机样本,直接训练会学到旧策略偏差。

应该怎么准备

准备算法岗,不要只刷题,也不要只背模型。建议建立三层知识:

  • 基础层:数据结构、概率统计、机器学习、深度学习、SQL、Python/C++。
  • 业务层:推荐、广告、风控、调度、NLP/AIGC 的目标和链路。
  • 工程层:特征、样本、训练、部署、实验、监控、复盘。

你可以用一个项目贯穿这三层:先讲业务背景,再讲建模和数据,再讲模型策略,最后讲实验和上线收益。这比堆很多零散模型名更有竞争力。

面试里的标准表达

可以这样总结:

我理解的算法岗不是单点模型开发,而是围绕业务目标做数据驱动的决策优化。模型只是其中一环,完整链路还包括问题定义、指标设计、样本构造、策略约束、线上实验和效果复盘。一个方案是否合格,不只看离线指标,还要看能否稳定提升业务指标,并且在成本、延迟和用户体验约束下可上线。

下一篇建议继续看: