为什么说 OPD 本质上是一种"on-policy 的、以外部教师为 target 的自举"
机器学习里 "bootstrapping" 有两个完全不同的东西,对应的类比深度差别极大:
| 名称 | 含义 | 与 OPD 的契合度 |
|---|---|---|
| 统计 Bootstrap(Efron 1979) | 有放回重采样估方差 | 牵强 —— 只是都"用自己的数据" |
| RL Bootstrapping(Sutton-Barto Ch.6-7) | 用自己当前的估计去更新自己的估计 | 深刻同构 ← 本文重点 |
它的精神被 Sutton 一句话点破:
关键点:目标里的 $V(s_{t+1})$ 是网络自己当前的估计,不是真值。它不等到 episode 结束拿真实回报 $G_t$(那是 Monte Carlo),而是借用自己对下一步的估计"垫"出当前的学习信号——这就是 bootstrap(自己拽自己的鞋带)。
关键点:学生在自己采样出来的状态 $s_t$ 上,用教师分布作为"目标"去拉自己。
| 要素 | TD Bootstrapping | On-Policy Distillation |
|---|---|---|
| 状态从哪来 | 当前策略 $\pi$ 在线交互产生 $s_t$ | 学生 $\pi_\theta$ 在线 rollout 产生 $s_t$ |
| 被更新的量 | $V(s_t)$ | $\pi_\theta(\cdot\mid s_t)$ |
| 学习目标 target | $r_{t+1}+\gamma V(s_{t+1})$ | $\log\pi_T(a_t\mid s_t)$(dense per-token) |
| 目标的性质 | 比终态回报便宜得多的代理信号 | 比稀疏 reward 便宜得多的 dense 信号 |
| 误差信号 | TD error $\delta_t=\text{target}-V(s_t)$ | KL/logratio $=\text{target}-\log\pi_\theta$ |
| 更新方向 | 把 $V(s_t)$ 拉向 target | 把 $\pi_\theta$ 拉向教师 |
逐位置自举是两者最硬核的共同点:都不等序列/episode 走完拿"真值"(MC 的 $G_t$ / RL 的最终 reward),而是在每一步就地借一个现成的目标信号来更新。
二者治的是同一个病:off-policy 的分布漂移 / 复合误差。离线蒸馏(≈SFT/behavior cloning)和离线价值估计都会因"训练分布 ≠ 部署分布"而崩。on-policy 这味药两边一模一样:让训练分布 = 部署/评估分布。
这是两者最本质的共同动机,放进同一张偏差-方差 / 信号密度权衡表:
| 方法 | 目标信号 | 信号密度 | 方差 | 偏差 |
|---|---|---|---|---|
| Monte Carlo(RL) | 真实回报 $G_t$ | 稀疏(episode 末) | 高 | 无偏 |
| TD Bootstrapping | $r+\gamma V(s')$ | 每步 dense | 低 | 有偏(靠自己的估计) |
| RL w/ sparse reward(LLM) | 终态对错 0/1 | 极稀疏(序列末) | 高 | 无偏 |
| On-Policy Distillation | 教师 per-token logp | 每 token dense | 低 | 有偏(靠教师质量) |
完全平行:MC ↔ RL-sparse-reward 是"无偏但高方差、信号稀疏、信用分配难";TD ↔ OPD 是"引入一个有偏代理目标,换来 dense 低方差的逐步信号"。OPD 之于 RLVR/RLHF,几乎就是 TD 之于 Monte Carlo。
Thinking Machines 的博客原话即"OPD 把奖励从 episode-level 下放到 token-level"——这跟 TD 把 credit 从 episode 末下放到每一步是同一个机制。
On-policy distillation 本质上就是一种 bootstrapping:它在"学生自己采样的状态分布"上(on-policy),用"一个冻结的、便宜的代理目标"(教师 per-token logp ↔ TD target 里的 $V(s')$)替换掉"昂贵稀疏的真值回报"(终态 reward ↔ MC 的 $G_t$),从而把稀疏的、episode-level 的、高方差的信用分配,变成 dense 的、逐位置的、低方差的就地更新。
| 维度 | TD Bootstrapping | On-Policy Distillation |
|---|---|---|
| 目标来源 | 自己的滞后估计(真·自举,自我引用) | 外部更强的教师("借外脑",非纯自指) |
| 自举的对象 | 价值函数 $V/Q$(标量预测) | 策略分布 $\pi$(整个 softmax) |
| 是否会发散 | 自指 → 可能发散,需 target net / 收缩映射 | 教师固定 → 几乎不发散 |
| 偏差来源 | 自己估计不准 | 教师不完美 / 学生容量不够 |
顺带:《Rethinking OPD》观察到"更强的教师反而可能学不动、更弱的教师反而成功",本质就是这个 bias-variance 与 "target 可达性" 的权衡在作怪。