@ -92,23 +92,23 @@ openMind Library在分布式训练场景需要在设备间进行通信,出于
|
||||
|
||||
openMind Library涉及通信矩阵如下:
|
||||
|
||||
| 场景 | Bloom-7B sft | Open-Llama-7B sft | Baichuan-7B sft | Glm-6B sft(多机分布式场景) | Llama-7B sft(多机分布式场景) | Baichuan2-7B sft(多机分布式场景) | Qwen-7B sft(多机分布式场景) | InternLM-7B sft(多机分布式场景) | SwanLab离线实验跟踪 | openmind-cli deploy场景 |
|
||||
|:----------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------------------------------------|----------|
|
||||
| 源设备 | 运行torch_npu进程的服务器 | 运行torch_npu进程的服务器 | 运行torch_npu进程的服务器 | 运行mindspore进程的服务器 | 运行mindspore进程的服务器 | 运行mindspore进程的服务器 | 运行mindspore进程的服务器 | 运行mindspore进程的服务器 | 运行swanlab进程的服务器 | 运行openmind-cli deploy进程的服务器 |
|
||||
| 源IP | 设备地址IP | 设备地址IP | 设备地址IP IP | 设备地址IP | 设备地址IP | 设备地址IP | 设备地址IP | 设备地址IP | 设备地址IP | 设备地址IP |
|
||||
| 源端口 | 操作系统自动分配,分配范围由操作系统的自身配置决定 | 操作系统自动分配,分配范围由操作系统的自身配置决定 | 操作系统自动分配,分配范围由操作系统的自身配置决定 | 操作系统自动分配,分配范围由操作系统的自身配置决定 | 操作系统自动分配,分配范围由操作系统的自身配置决定 | 操作系统自动分配,分配范围由操作系统的自身配置决定 | 操作系统自动分配,分配范围由操作系统的自身配置决定 | 操作系统自动分配,分配范围由操作系统的自身配置决定 | 操作系统自动分配,分配范围由操作系统的自身配置决定 | 操作系统自动分配,分配范围由操作系统的自身配置决定 |
|
||||
| 目的设备 | 运行torch_npu进程的服务器 | 运行torch_npu进程的服务器 | 运行torch_npu进程的服务器 | 运行mindspore进程的服务器 | 运行mindspore进程的服务器 | 运行mindspore进程的服务器 | 运行mindspore进程的服务器 | 运行mindspore进程的服务器 | 运行swanlab进程的服务器 | 运行openmind-cli deploy进程的服务器 |
|
||||
| 目的IP | 设备地址IP | 设备地址IP | 设备地址IP | 设备地址IP | 设备地址IP | 设备地址IP | 设备地址IP | 设备地址IP | 设备地址IP | 设备地址IP |
|
||||
| 目的端口 (侦听) | 默认值27500,用户可以设定端口号 | 默认值27500,用户可以设定端口号 | 默认值27500,用户可以设定端口号 | 无默认值,需要用户手动设定 | 无默认值,需要用户手动设定 | 无默认值,需要用户手动设定 | 无默认值,需要用户手动设定 | 无默认值,需要用户手动设定 | 默认值5092,用户可以设定端口号 | 默认值1025,用户可以设定端口号 |
|
||||
| 协议 | TCP | TCP | TCP | TCP | TCP | TCP | TCP | TCP | TCP | TCP |
|
||||
| 端口说明 | 在Bloom-7B模型分布式场景中,目的端口(默认27500)用于接收和发送数据,源端口用于接收和发送数据 | 在Open-Llama-7B模型分布式场景中,目的端口(默认27500)用于接收和发送数据,源端口用于接收和发送数据| 在Baichuan-7B模型分布式场景中,目的端口(默认27500)用于接收和发送数据,源端口用于接收和发送数据| 在Glm-6B模型多机多卡分布式场景中,目的端口(无默认值,需要用户手动设定)用于接收和发送数据,源端口用于接收和发送数据 | 在Llama-7B模型多机多卡分布式场景中,目的端口(无默认值,需要用户手动设定)用于接收和发送数据,源端口用于接收和发送数据| 在Baichuan2-7B模型多机多卡分布式场景中,目的端口(无默认值,需要用户手动设定)用于接收和发送数据,源端口用于接收和发送数据 | 在Qwen-7B模型多机多卡分布式场景中,目的端口(无默认值,需要用户手动设定)用于接收和发送数据,源端口用于接收和发送数据 | 在InternLM-7B模型多机多卡分布式场景中,目的端口(无默认值,需要用户手动设定)用于接收和发送数据,源端口用于接收和发送数据 | 在SwanLab离线实验跟踪场景中,目的端口(默认5092)用于接收和发送数据,源端口用于接收和发送数据 | 在openmind-cli deploy场景中,目的端口(默认1025)用于接收和发送数据,源端口用于接收和发送数据 |
|
||||
| 侦听端口是否可更改 | 是 | 是 | 是 | 是 | 是 | 是 | 是 | 是 | 是 | 是 |
|
||||
| 认证方式 | 无认证方式 | 无认证方式 | 无认证方式 | 无认证方式 | 无认证方式 | 无认证方式 | 无认证方式 | 无认证方式 | 无认证方式 | 无认证方式 |
|
||||
| 加密方式 | 无 | 无 | 无 | 无 | 无 | 无 | 无 | 无 | 无 | 无 |
|
||||
| 所属平面 | 不涉及 | 不涉及 | 不涉及 | 不涉及 | 不涉及 | 不涉及 | 不涉及 | 不涉及 | 不涉及 | 不涉及 |
|
||||
| 版本 | 所有版本 | 所有版本 | 所有版本 | 所有版本 | 所有版本 | 所有版本 | 所有版本 | 所有版本 | 所有版本 | 所有版本 |
|
||||
| 特殊场景 | 无 | 无 | 无 | 无 | 无 | 无| 无| 无 | 无 | 无 |
|
||||
| 备注 | 该通信过程由开源软件PyTorch控制,配置为PyTorch原生设置,可参考[PyTorch文档](https://pytorch.org/docs/stable/distributed.html#launch-utility)。源端口由操作系统自动分配,分配范围由操作系统的配置决定,例如ubuntu:采用/proc/sys/net/ipv4/ipv4_local_port_range文件指定,可通过cat /proc/sys/net/ipv4/ipv4_local_port_range或sysctl net.ipv4.ip_local_port_range查看 | 该通信过程由开源软件PyTorch控制,配置为PyTorch原生设置,可参考[PyTorch文档](https://pytorch.org/docs/stable/distributed.html#launch-utility)。源端口由操作系统自动分配,分配范围由操作系统的配置决定,例如ubuntu:采用/proc/sys/net/ipv4/ipv4_local_port_range文件指定,可通过cat /proc/sys/net/ipv4/ipv4_local_port_range或sysctl net.ipv4.ip_local_port_range查看 | 该通信过程由开源软件PyTorch控制,配置为PyTorch原生设置,可参考[PyTorch文档](https://pytorch.org/docs/stable/distributed.html#launch-utility)。源端口由操作系统自动分配,分配范围由操作系统的配置决定,例如ubuntu:采用/proc/sys/net/ipv4/ipv4_local_port_range文件指定,可通过cat /proc/sys/net/ipv4/ipv4_local_port_range或sysctl net.ipv4.ip_local_port_range查看 | 该通信过程由开源软件Mindspore控制,配置为Mindspore原生设置,可参考[Mindspore文档](https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.0rc2/parallel/msrun_launcher.html)。源端口由操作系统自动分配,分配范围由操作系统的配置决定。 | 该通信过程由开源软件Mindspore控制,配置为Mindspore原生设置,可参考[Mindspore文档](https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.0rc2/parallel/msrun_launcher.html)。源端口由操作系统自动分配,分配范围由操作系统的配置决定。 | 该通信过程由开源软件Mindspore控制,配置为Mindspore原生设置,可参考[Mindspore文档](https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.0rc2/parallel/msrun_launcher.html)。源端口由操作系统自动分配,分配范围由操作系统的配置决定。 | 该通信过程由开源软件Mindspore控制,配置为Mindspore原生设置,可参考[Mindspore文档](https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.0rc2/parallel/msrun_launcher.html)。源端口由操作系统自动分配,分配范围由操作系统的配置决定。 | 该通信过程由开源软件Mindspore控制,配置为Mindspore原生设置,可参考[Mindspore文档](https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.0rc2/parallel/msrun_launcher.html)。源端口由操作系统自动分配,分配范围由操作系统的配置决定。 |该通信过程由开源软件SwanLab控制,配置为SwanLab原生设置,可参考[SwanLab文档](https://docs.swanlab.cn/guide_cloud/general/what-is-swanlab.html)。源端口由操作系统自动分配,分配范围由操作系统的配置决定。 |在使用LMDploy作为后端时,该通信过程由开源软件LMDeploy控制,配置为LMDeploy原生设置,可参考[LMDeploy文档](https://lmdeploy.readthedocs.io/zh-cn/latest/index.html)。在使用MindIE作为作为后端时,该通信过程由MindIE控制,可参考[MindIE文档](https://www.hiascend.com/document/detail/zh/mindie/10RC3/ref/commumatrix/Communication0000.html)。源端口由操作系统自动分配,分配范围由操作系统的配置决定。 |
|
||||
| 场景 | SwanLab离线实验跟踪 | openmind-cli deploy场景 |
|
||||
|------|--------------------|------------------------|
|
||||
| 源设备 | 运行swanlab进程的服务器 | 运行openmind-cli deploy进程的服务器 |
|
||||
| 源IP | 设备地址IP | 设备地址IP |
|
||||
| 源端口 | 操作系统自动分配,分配范围由操作系统的自身配置决定 | 操作系统自动分配,分配范围由操作系统的自身配置决定 |
|
||||
| 目的设备 | 运行swanlab进程的服务器 | 运行openmind-cli deploy进程的服务器 |
|
||||
| 目的IP | 设备地址IP | 设备地址IP |
|
||||
| 目的端口 (侦听) | 默认值5092,用户可以设定端口号 | 默认值1025,用户可以设定端口号 |
|
||||
| 协议 | TCP | TCP |
|
||||
| 端口说明 | 在SwanLab离线实验跟踪场景中,目的端口(默认5092)用于接收和发送数据,源端口用于接收和发送数据 | 在openmind-cli deploy场景中,目的端口(默认1025)用于接收和发送数据,源端口用于接收和发送数据 |
|
||||
| 侦听端口是否可更改 | 是 | 是 |
|
||||
| 认证方式 | 无认证方式 | 无认证方式 |
|
||||
| 加密方式 | 无 | 无 |
|
||||
| 所属平面 | 不涉及 | 不涉及 |
|
||||
| 版本 | 所有版本 | 所有版本 |
|
||||
| 特殊场景 | 无 | 无 |
|
||||
| 备注 | 该通信过程由开源软件SwanLab控制,配置为SwanLab原生设置,可参考[SwanLab文档](https://docs.swanlab.cn/guide_cloud/general/what-is-swanlab.html)。源端口由操作系统自动分配,分配范围由操作系统的配置决定。 | 在使用LMDploy作为后端时,该通信过程由开源软件LMDeploy控制,配置为LMDeploy原生设置,可参考[LMDeploy文档](https://lmdeploy.readthedocs.io/zh-cn/latest/index.html)。在使用MindIE作为作为后端时,该通信过程由MindIE控制,可参考[MindIE文档](https://www.hiascend.com/document/detail/zh/mindie/10RC3/ref/commumatrix/Communication0000.html)。源端口由操作系统自动分配,分配范围由操作系统的配置决定。 |
|
||||
|
||||
除上述场景外,openMind Library不涉及端口开放、侦听等相关行为,PyTorch模型分布式训练涉及的相关端口行为由用户在模型脚本调用原生接口,配置为PyTorch原生设置,可参考[PyTorch文档](https://pytorch.org/docs/stable/distributed.html#launch-utility),具体通信矩阵可参考[torch_npu文档](https://gitee.com/ascend/pytorch/blob/master/SECURITYNOTE.md#%E9%80%9A%E4%BF%A1%E7%9F%A9%E9%98%B5),Mindspore模型分布式训练涉及的相关端口行为由用户在模型脚本调用原生接口,配置为Mindspore原生设置,可参考[Mindspore文档](https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.0rc1/parallel/msrun_launcher.html),具体通信矩阵可参考[mindformers文档](https://gitee.com/mindspore/mindformers/blob/dev/docs/security_statement.md#%E9%80%9A%E4%BF%A1%E7%9F%A9%E9%98%B5)。建议用户注意做好安全防护,分布式训练的情况下请勿绑定全局端口,推荐进行[通信安全加固](https://gitee.com/ascend/pytorch/blob/master/SECURITYNOTE.md#%E9%80%9A%E4%BF%A1%E5%AE%89%E5%85%A8%E5%8A%A0%E5%9B%BA)。此外,openMind Library内部会使用到openMind Hub组件,可查询其[通信矩阵](https://gitee.com/openmind-ai/openmind-hub/blob/pre-release-430/security_statement.md#%E9%80%9A%E4%BF%A1%E7%9F%A9%E9%98%B5)。
|
||||
|
||||
|
Reference in New Issue
Block a user