强化学习 / 03

RL 在排序和推荐中的用法

推荐排序天然有序列决策特征。当前展示会影响用户后续行为、兴趣状态和长期留存，所以不能只看单次点击。

为什么监督学习不够

普通排序模型通常预测当前 item 的点击或转化，但它忽略两个问题：

例如一直推荐短期高点击内容，可能提升当天点击，但降低长期留存。

RL 更适合优化长期收益：

它把推荐看成连续决策，而不是独立样本预测。

推荐里的状态可以是用户历史行为、当前兴趣、上下文和候选集。动作可以是推荐一个 item 或一个列表。奖励可以是点击、停留、转化、负反馈、留存的组合。

难点是动作空间巨大。直接对所有 item 做 RL 很难，所以通常会先召回候选，再在候选上做策略优化。

推荐给用户的是列表，不是单个 item。列表里 item 之间会相互影响。

RL 或 slate recommendation 可以把整个列表作为动作，但动作空间更大。工业里常用近似：先逐个打分，再重排处理多样性和长期目标。

推荐系统不能随便在线探索，所以离线 RL 很重要。它用历史日志学习策略，但历史日志只覆盖旧策略选择过的动作。

难点：

更常见的落地方式不是端到端 RL，而是在重排阶段加入长期价值。

例如：

理想回答：

我会先定义长期指标，比如次日留存、七日留存、长期消费和负反馈。短期排序模型仍然预测点击或消费，但会加入长期价值模型或重排约束，避免过度推荐短期刺激内容。如果考虑 RL，会先在离线日志和仿真环境中评估策略，再小流量灰度。

原因：

RL 在推荐中的价值是长期决策视角。面试里不要把 RL 说成万能模型，更成熟的说法是：在现有召回排序链路上，引入长期价值、探索和策略评估。

下一篇建议继续看：

本文有帮助吗？