强化学习 / 01

工业界怎么定义状态、动作、奖励

强化学习在工业界不是先背 MDP 公式，而是先判断业务问题是否真的是序列决策。只有当前动作会影响未来状态和未来收益时，强化学习才有意义。

MDP 五要素

MDP 包括状态、动作、转移、奖励和策略：

业务里最难的是定义状态、动作和奖励。

状态要包含决策所需的信息。

推荐场景：

调度场景：

广告场景：

状态不是特征越多越好，而是要足够表达决策环境。

动作是系统能控制的东西。

例如：

动作空间如果太大，直接 RL 会很难。工业系统通常先生成候选动作，再用模型或优化器选择。

奖励定义最容易出问题。

短期点击可以作为奖励，但可能伤害长期体验。补贴带来接单可以作为奖励，但要扣除成本。调度准时可以作为奖励，但也要考虑骑手体验。

好的奖励通常包括收益和成本：

reward = 业务收益 - 成本 - 风险惩罚

工业 RL 不能只最大化奖励，还要满足约束：

很多业务问题更适合“监督学习 + 约束优化”，不一定要端到端 RL。

适合：

不适合：

我会先判断问题是否是序列决策。如果只是单次点击预测，用监督学习即可；如果当前动作会影响未来状态，比如推荐探索、广告预算、骑手调度，就可以考虑 RL。定义时要明确状态、动作和奖励，同时加入业务约束。工业落地一般不会直接在线探索，而是先用离线数据、仿真和小流量实验验证。

下一篇建议继续看：

本文有帮助吗？