搜广推 / 04
冷启动、探索与多样性
推荐系统如果只利用历史点击,很容易陷入马太效应:热门内容越来越热门,新内容没有机会,新用户只能看泛化内容。冷启动、探索和多样性就是为了解决这个问题。
新用户冷启动
新用户缺少历史行为,模型很难判断兴趣。
常用方法:
- 使用注册信息、地域、设备、入口、时间等上下文。
- 使用热门和高质量内容兜底。
- 让用户主动选择兴趣。
- 用短期 session 行为快速更新兴趣。
- 做轻量探索,尽快收集反馈。
新用户冷启动的目标不是一开始就极致个性化,而是快速建立可靠兴趣画像。
新物料冷启动
新物料没有点击和转化历史,容易被排序系统低估。
解决方式:
- 使用内容特征:文本、图像、类目、作者、价格等。
- 用相似物料迁移先验。
- 建立质量预估模型。
- 分配探索流量。
- 按生命周期设置不同排序策略。
关键是给新物料足够曝光,同时控制低质量内容伤害用户体验。
探索与利用
利用是展示模型认为最好的内容,探索是给不确定但可能有价值的内容机会。
只利用会导致系统越来越保守;探索太多会伤害体验。
常见方法:
- epsilon-greedy。
- UCB。
- Thompson Sampling。
- 分层探索流量池。
- 新物料保量策略。
业务上通常会限制探索比例,并设置质量门槛。
多样性
多样性不是为了“看起来丰富”,而是为了避免重复、提升长期体验和发现潜在兴趣。
多样性维度:
- 类目。
- 作者。
- 主题。
- 价格带。
- 内容形式。
- 新旧内容。
- 商业和自然结果。
多样性通常在重排阶段做,因为它需要看整个列表,而不是单个 item 分数。
多样性和相关性的冲突
多样性可能降低短期点击,但提升长期留存。面试里要说清楚取舍。
常见策略:
- 主模型保证相关性。
- 重排加入多样性约束。
- 对不同用户分层:兴趣明确用户少探索,新用户多探索。
- 用长期指标评估多样性收益。
面试题:如何做新内容冷启动
理想回答:
我会先用内容特征和作者特征做质量预估,再通过相似内容召回和新内容探索池获得初始曝光。排序时对新内容设置合理的先验和探索预算,线上监控有效消费、负反馈和后续留存。探索不是无脑保量,要有质量门槛和退出机制。
面试题:探索流量怎么控制风险
回答要点:
- 设探索比例上限。
- 只对通过质量门槛的候选探索。
- 分人群、分场景探索。
- 设置负反馈和投诉护栏。
- 根据反馈快速调整。
面试题:多样性怎么评估
可以看:
- 类目覆盖。
- 作者覆盖。
- 列表相似度。
- 重复曝光率。
- 长期留存。
- 负反馈。
- 探索内容后续表现。
不要只看“类别数量”,要结合用户体验和长期指标。
总结
冷启动、探索、多样性都是在解决同一个问题:系统不能只复刻历史。一个成熟推荐系统需要在短期收益、长期体验、内容生态和探索成本之间做平衡。
下一篇建议继续看: