Files
MindSpeed-RL/docs/features/partial_rollout.md
panchenyi 5cc9a136a8 !507 partial rollout
Merge pull request !507 from panchenyi/master
2025-08-04 11:07:37 +00:00

2.4 KiB
Raw Blame History

partial rollout

简介

Partial rollout 核心思想是通过对长序列 response 推理样本做提前中断,并在下次推理过程中对当前样本进行续推,从而避免单一的长尾样本对推理过程造成资源浪费。通过该能力,我们可以降低长序列推理场景下的长尾样本对端到端性能的影响。

使用方法

rl_config:
  partial_rollout_max_split: N # 设置N>1即可在N轮内完全推理完成最长序列

技术方案

同步推理引擎方案

核心理念:断点续推+跨迭代长尾调度避免推理资源闲置 同步引擎:数据按批处理,同时进入推理引擎、批次内所有数据完成推理后同时返回结果 关键技术点:

  1. 长序列推理截断机制根据最大推理长度和次数设置推理截断点将截断样本放入TransferDock当满足≥GBS个prompt已完成全部推理则进入后续计算任务否则则从TransferDock中取数据再次推理达成高资源利用率。
  2. 基于优先级的混合A数据重排和采样技术在下一轮推理时优先取出被截断样本进行推理避免影响效果和收敛性。

img.png

图1 同步引擎方案示意图

img_1.png

图2 同步引擎流程图

异步推理引擎方案

核心理念:断点续推+跨迭代长尾调度避免推理资源闲置 异步引擎:数据按批次进入推理引擎,可异步按样本粒度返回结果 关键技术点:

  1. 实时长序列推理截断机制实现与推理引擎交互动态确定长尾序列被截断长度当满足≥GBS个prompt已完成全部推理则中断推理过程将截断样本放入TransferDock避免长尾序列推理拖慢整体推理时间、造成资源空置。
  2. 基于优先级的混合数据重排和采样技术:在下一轮推理时,优先取出被截断样本并混合新样本进行推理。
  3. 收敛性和稳定性保证:实现样本在规定的迭代轮数内完成推理。 img_2.png 图3 异步引擎方案示意图

img_3.png

图4 异步引擎流程图

验证情况

img_4.png 图5 同步引擎验证结果