算法岗基础 / 04

指标、实验与收益归因

算法岗面试里，“指标怎么设、实验怎么做、收益怎么归因”是高频追问。因为业务算法最终要证明价值，不是只证明模型看起来更高级。

指标分三层

第一层是模型指标，比如 AUC、Logloss、MAE、F1、NDCG。这些指标用于判断模型是否更好地拟合了离线数据。

第二层是策略指标，比如召回覆盖率、排序分布、补贴命中率、调度超时风险、审核通过率。这些指标用于判断模型输出进入策略后是否合理。

第三层是业务指标，比如点击率、转化率、GMV、ROI、留存、准时率、投诉率、资损、成本。业务指标才是最终结果。

很多问题出在这三层不一致：模型指标涨了，策略没变；策略看起来更激进，业务护栏被伤害；业务涨了，但不是算法导致的。

一个实验不能只看一个指标。通常要同时定义：

例如广告出价优化的主指标可能是广告主 ROI，过程指标是 CTR、CVR、消耗速度，护栏指标是用户体验、预算超投率和系统延迟。

离线数据来自历史策略，天然有偏。推荐系统只知道用户看过什么，不知道没曝光的内容会不会点击；补贴系统只知道历史补贴策略下的行为，不知道不补贴会怎样；风控系统只知道拦截后的结果，但不知道放行后是否会产生风险。

因此离线指标只是筛选方案，不能替代线上实验。

常见原因：

不同业务的实验单元不同。

推荐排序常按用户或请求分流；广告可能按用户、广告主或流量分层；物流调度可能按区域、城市或时间片，因为骑手和订单之间有干扰；风控策略可能按账号或交易分流，但要注意风险扩散。

如果实验单元选错，会出现污染。例如物流里同一骑手同时服务实验组和对照组订单，两个组就不独立。

面试官常问：“这个提升为什么是你的方案带来的？”

回答要按链路拆：

不要只说“实验涨了 2%”。要解释为什么涨。

Ablation 是拆解贡献。比如一个排序方案同时加了新特征、新模型和新重排策略，如果整体效果好了，要知道哪部分贡献最大。

常见做法：

Ablation 可以帮助后续迭代，也能防止把收益错误归因给不重要的模块。

不一定。要看提升是否集中在关键样本和关键排序区间。如果 AUC 提升来自大量低价值负样本，线上可能没有收益。还要看模型校准、排序 top 区间和策略使用方式。

先检查样本量和实验周期，再看指标波动和分层效果。如果整体不显著但某些场景显著，可以判断是否存在异质性。也要回到方案机制，看中间指标是否按预期变化。

说明主指标和体验护栏冲突。不能只看主指标上线，要重新调整目标函数或策略边界。业务算法的重点是在约束下优化，不是单指标冲高。

实验前明确主指标、分析周期和分层方案。不要在大量指标里事后挑显著结果。必要时做多重检验校正或复现实验。

我会把指标分成模型指标、策略指标和业务指标。离线阶段先看模型指标和关键分桶，确认方案有潜力；上线阶段通过 A/B 实验验证主指标，同时设置成本、体验、延迟等护栏。实验后不只看整体涨跌，还会看中间指标、分场景效果和 ablation，确认收益是否符合方案机制，避免把外部波动误认为算法收益。

下一篇建议继续看：

本文有帮助吗？