搜广推 / 05

特征工程与样本构造

搜广推项目里，很多收益来自特征和样本，而不是模型结构。面试官经常追问数据，是因为真实业务里最容易出问题的也是数据。

特征分层

常见特征可以分为：

特征不是越多越好，要看是否稳定、可用、低延迟、有增量。

标签决定模型学什么。

点击标签简单，但可能鼓励标题党；停留时长能反映消费，但可能偏向长内容；购买标签价值高，但稀疏；负反馈标签重要，但数据少。

标签设计要和业务目标一致。推荐系统常用多目标标签，广告常用 CTR/CVR，风控常用风险标签，物流常用超时或完成概率。

样本构造要明确时间窗口：

时间窗口不清楚，很容易数据泄漏。

负样本不是随便采。

推荐里，曝光未点击可以是负样本，但用户可能根本没看到。广告里，点击未转化是 CVR 负样本，但转化可能延迟。搜索里，低位未点击不一定不相关。

常见策略：

高频问题：

解决方式：

线上服务里，特征可能缺失、延迟、版本不一致。训练时非常干净的数据，线上不一定存在。

上线前要做：

理想回答：

样本以曝光为单位，曝光后一定时间窗口内点击为正样本，未点击为负样本。特征只能使用曝光时刻之前可获得的信息。训练集按时间切分，避免同一时间段泄漏。还会关注位置偏差、曝光偏差和负采样比例，并在上线后做校准。

常见原因：

特征和样本决定模型学习的上限。一个成熟的搜广推项目，要能讲清楚样本来源、标签定义、负样本、特征窗口、偏差处理和线上一致性。

下一篇建议继续看：

本文有帮助吗？