Module 04

强化学习

强化学习在工业界不是一套孤立理论,而是和推荐、广告、策略优化、长期价值直接相连。

这部分会解决什么

  • 如何把业务问题转成状态、动作、奖励
  • Bandit 和 RL 分别适合什么场景
  • 离线评估、安全约束和部署边界

建议阅读顺序

  1. 工业界怎么定义状态、动作、奖励
  2. Bandit 与探索利用
  3. RL 在排序和推荐中的用法
  4. 离线 RL、安全约束与反事实评估

当前文章

文章 作用
工业界怎么定义状态、动作、奖励 避免空讲公式,先看建模
Bandit 与探索利用 建立最常见的在线决策框架
RL 在排序和推荐中的用法 连接搜广推主线
离线 RL、安全约束与反事实评估 进入真正能落地的部分