Module 04
强化学习
强化学习在工业界不是一套孤立理论,而是和推荐、广告、策略优化、长期价值直接相连。
这部分会解决什么
- 如何把业务问题转成状态、动作、奖励
- Bandit 和 RL 分别适合什么场景
- 离线评估、安全约束和部署边界
建议阅读顺序
当前文章
| 文章 | 作用 |
|---|---|
| 工业界怎么定义状态、动作、奖励 | 避免空讲公式,先看建模 |
| Bandit 与探索利用 | 建立最常见的在线决策框架 |
| RL 在排序和推荐中的用法 | 连接搜广推主线 |
| 离线 RL、安全约束与反事实评估 | 进入真正能落地的部分 |
Module 04
强化学习在工业界不是一套孤立理论,而是和推荐、广告、策略优化、长期价值直接相连。
| 文章 | 作用 |
|---|---|
| 工业界怎么定义状态、动作、奖励 | 避免空讲公式,先看建模 |
| Bandit 与探索利用 | 建立最常见的在线决策框架 |
| RL 在排序和推荐中的用法 | 连接搜广推主线 |
| 离线 RL、安全约束与反事实评估 | 进入真正能落地的部分 |