wanghao 058aafa794 !510 【多模态】【feat.】Support multimodal mrope
Merge pull request !510 from wanghao/mrope
2025-08-14 11:22:22 +00:00
2025-02-27 11:30:29 +00:00
2025-08-11 13:02:03 +00:00
2025-08-04 11:07:37 +00:00
2025-03-10 02:12:36 +00:00
2025-08-06 03:41:40 +00:00
2025-08-04 11:07:37 +00:00
2025-07-31 08:37:28 +00:00
2025-07-31 08:37:28 +00:00

MindSpeed RL是基于昇腾生态的强化学习加速框架旨在为华为 昇腾芯片 生态合作伙伴提供端到端的RL训推解决方案支持超大昇腾集群训推共卡/分离部署、多模型异步流水调度、训推异构切分通信等核心加速能力


NEWS

🚀🚀🚀 Partial Rollout功能已支持🚀🚀🚀


安装指南

本版本为预览非正式发布版本, 依赖配套如下表,安装步骤参考安装指南

依赖软件 版本
昇腾NPU驱动 在研版本
昇腾NPU固件
Toolkit开发套件 在研版本
Kernel算子包
NNALAscend Transformer Boost加速库
Python PT配套版本
PyTorch 2.5
torch_npu插件 在研版本
apex

快速入门

如何快速在昇腾训练设备上运行 MindSpeed-RL 可详见 快速入门

使用指南

训练算法

训练算法 训练指南 支持模型 发布状态
GRPO Doc Qwen2.5-7B
Qwen2.5-32B
Released
Doc Qwen2.5VL-3B
Qwen2.5VL-7B
Qwen2.5VL-32B
Released
Doc Qwen3-8B
Qwen3-235B-A22B
DeepSeek-R1-671B
Preview
DAPO Doc Qwen2.5-32B
Qwen3-30B-A3B
Qwen3-32B
Preview
PPO Doc Qwen2.5-32B
Preview
DPO Doc Qwen3-30B-A3B
Preview
注:"Preview"发布状态表示预览非正式发布版本,"Released"发布状态表示正式发布版本

使用Ray拉起任务的算法如GRPO环境变量需要在runtime_env.yaml处配置

核心特性

核心特性 特性指南 适用算法 发布状态
训推共卡 Doc GRPO
DAPO
PPO
Released
数据调度 Doc GRPO
DAPO
PPO
Preview
权重重切分 Doc GRPO
DAPO
PPO
Preview
填充移除 Doc GRPO
DAPO
PPO
Preview
长序列并行 Doc GRPO
DAPO
PPO
DPO
Preview
Partial Rollout Doc GRPO
Preview
注:"Preview"发布状态表示预览非正式发布版本,"Released"发布状态表示正式发布版本

效率工具

工具特性 特性指南 适用算法 发布状态
训练监控 Doc GRPO
DAPO
PPO
Preview
性能调优 Doc GRPO
DAPO
PPO
DPO
Preview
精度分析 Doc GRPO
DAPO
PPO
Preview
确定性计算 Doc GRPO
DAPO
PPO
DPO
Preview
注:"Preview"发布状态表示预览非正式发布版本,"Released"发布状态表示正式发布版本

版本维护策略

MindSpeed RL版本有以下五个维护阶段

状态 时间 说明
计划 1—3 个月 计划特性
开发 3 个月 开发特性
维护 6-12 个月 合入所有已解决的问题并发布版本针对不同的MindSpeed RL版本采取不同的维护策略常规版本和长期支持版本维护周期分别为6个月和12个月
无维护 0—3 个月 合入所有已解决的问题,无专职维护人员,无版本发布
生命周期终止EOL N/A 分支不再接受任何修改

MindSpeed RL已发布版本维护策略

MindSpeed RL版本 对应标签 维护策略 当前状态 发布时间 后续状态 EOL日期
2.1.0 \ 正式版本 商用 \ \ 2025/12/30
2.0.0 \ 预览版本 预览 \ \ 2025/9/30

安全声明

详细安全声明

致谢

MindSpeed RL由华为公司的下列部门以及昇腾生态合作伙伴联合贡献

华为公司:

  • 计算产品线
  • 2012实验室
  • 公共开发部
  • 全球技术服务部
  • 华为云计算

感谢来自社区的每一个PR共同打造业界领先的RL训推系统

免责声明

致MindSpeed RL使用者

  1. MindSpeed RL提供的模型仅供您用于非商业目的。
  2. 对于各模型MindSpeed RL平台仅提示性地向您建议可用于训练的数据集华为不提供任何数据集如您使用这些数据集进行训练请您特别注意应遵守对应数据集的License如您因使用数据集而产生侵权纠纷华为不承担任何责任。
  3. 如您在使用MindSpeed RL模型过程中发现任何问题包括但不限于功能问题、合规问题请在Gitee提交issue我们将及时审视并解决。
  4. MindSpeed功能依赖的Megatron等第三方开源软件均由第三方社区提供和维护因第三方开源软件导致的问题的修复依赖相关社区的贡献和反馈。您应理解MindSpeed仓库不保证对第三方开源软件本身的问题进行修复也不保证会测试、纠正所有第三方开源软件的漏洞和错误。

致数据集所有者

如果您不希望您的数据集在MindSpeed RL中的模型被提及或希望更新MindSpeed RL中的模型关于您的数据集的描述请在Gitee提交issue我们将根据您的issue要求删除或更新您的数据集描述。衷心感谢您对MindSpeed RL的理解和贡献。

Description
No description provided
Readme MIT 34 MiB
Languages
Python 96.8%
Shell 3.2%