zero2algo

Module 04

强化学习

强化学习在工业界不是一套孤立理论，而是和推荐、广告、策略优化、长期价值直接相连。

这部分会解决什么

如何把业务问题转成状态、动作、奖励
Bandit 和 RL 分别适合什么场景
离线评估、安全约束和部署边界

建议阅读顺序

当前文章

文章	作用
工业界怎么定义状态、动作、奖励	避免空讲公式，先看建模
Bandit 与探索利用	建立最常见的在线决策框架
RL 在排序和推荐中的用法	连接搜广推主线
离线 RL、安全约束与反事实评估	进入真正能落地的部分

本文有帮助吗？

| GitHub 留言