搜广推 / 04

冷启动、探索与多样性

推荐系统如果只利用历史点击,很容易陷入马太效应:热门内容越来越热门,新内容没有机会,新用户只能看泛化内容。冷启动、探索和多样性就是为了解决这个问题。

新用户冷启动

新用户缺少历史行为,模型很难判断兴趣。

常用方法:

  • 使用注册信息、地域、设备、入口、时间等上下文。
  • 使用热门和高质量内容兜底。
  • 让用户主动选择兴趣。
  • 用短期 session 行为快速更新兴趣。
  • 做轻量探索,尽快收集反馈。

新用户冷启动的目标不是一开始就极致个性化,而是快速建立可靠兴趣画像。

新物料冷启动

新物料没有点击和转化历史,容易被排序系统低估。

解决方式:

  • 使用内容特征:文本、图像、类目、作者、价格等。
  • 用相似物料迁移先验。
  • 建立质量预估模型。
  • 分配探索流量。
  • 按生命周期设置不同排序策略。

关键是给新物料足够曝光,同时控制低质量内容伤害用户体验。

探索与利用

利用是展示模型认为最好的内容,探索是给不确定但可能有价值的内容机会。

只利用会导致系统越来越保守;探索太多会伤害体验。

常见方法:

  • epsilon-greedy。
  • UCB。
  • Thompson Sampling。
  • 分层探索流量池。
  • 新物料保量策略。

业务上通常会限制探索比例,并设置质量门槛。

多样性

多样性不是为了“看起来丰富”,而是为了避免重复、提升长期体验和发现潜在兴趣。

多样性维度:

  • 类目。
  • 作者。
  • 主题。
  • 价格带。
  • 内容形式。
  • 新旧内容。
  • 商业和自然结果。

多样性通常在重排阶段做,因为它需要看整个列表,而不是单个 item 分数。

多样性和相关性的冲突

多样性可能降低短期点击,但提升长期留存。面试里要说清楚取舍。

常见策略:

  • 主模型保证相关性。
  • 重排加入多样性约束。
  • 对不同用户分层:兴趣明确用户少探索,新用户多探索。
  • 用长期指标评估多样性收益。

面试题:如何做新内容冷启动

理想回答:

我会先用内容特征和作者特征做质量预估,再通过相似内容召回和新内容探索池获得初始曝光。排序时对新内容设置合理的先验和探索预算,线上监控有效消费、负反馈和后续留存。探索不是无脑保量,要有质量门槛和退出机制。

面试题:探索流量怎么控制风险

回答要点:

  • 设探索比例上限。
  • 只对通过质量门槛的候选探索。
  • 分人群、分场景探索。
  • 设置负反馈和投诉护栏。
  • 根据反馈快速调整。

面试题:多样性怎么评估

可以看:

  • 类目覆盖。
  • 作者覆盖。
  • 列表相似度。
  • 重复曝光率。
  • 长期留存。
  • 负反馈。
  • 探索内容后续表现。

不要只看“类别数量”,要结合用户体验和长期指标。

总结

冷启动、探索、多样性都是在解决同一个问题:系统不能只复刻历史。一个成熟推荐系统需要在短期收益、长期体验、内容生态和探索成本之间做平衡。

下一篇建议继续看: