mirror of
https://github.com/chenzomi12/aisystem.git
synced 2025-10-20 12:53:45 +08:00
Merge branch 'main' into error1
This commit is contained in:
@ -62,7 +62,7 @@
|
||||
|
||||
在张量并行中,模型中的大型矩阵乘法操作被分割成更小的部分,这些部分可以在多个计算节点上并行执行。例如,在 Transformer 模型中,矩阵乘法是一个主要的计算瓶颈,通过张量并行,我们可以将权重矩阵分割成更小的块,每个块在不同的节点上并行处理。
|
||||
|
||||
在实践中,模型并行可以包括流水并行和张量并行的组合。一个节点可以负责模型的一部分(模型并行),同时处理不同的微批次(流水并行),并且在这个节点内部,大型的矩阵运算可以进一步在多个处理器间分割(张量并行)。这样的组合可以充分利用分布式计算资源,提高大模型训练的效率。
|
||||
在实践中,模型并行可以包括流水并行和张量并行的组合。一个节点可以负责模型的一部分(模型并行),同时处理不同的微批次(流水并行),并且在这个节点内部,大型的矩阵运算可以进一步在多个处理器间分割(张量并行)。以 MoE 模型举例,在 MoE 中大部分都会采取 Experts Parallel 来作为并行方法。一般来讲,Experts Parallel 其实就是 PP 与 TP 的组合:在计算 Attention 的部分使用 PP,在 Experts(FFNs)那里用TP。这样的组合可以充分利用分布式计算资源,提高大模型训练的效率。
|
||||
|
||||
### AI 框架分布式
|
||||
|
||||
|
@ -76,7 +76,7 @@ NVLink 的引入不仅仅是技术上的创新,它还代表了英伟达对未
|
||||
|
||||
### 初代 NVLink 结构
|
||||
|
||||
第一代 NVLink 技术采用了一种精巧的设计,每条 NVLink 是由一对双工双路信道组成,通过巧妙地将 32 条配线组合起来,形成了 8 对不同的配对。这种独特的结构使得每个方向上能够实现高效的数据传输,具体来说,就是通过 2 位双向传输(2bi)乘以 8 对配对(8pair)再乘以 2 条线(2wire),最终形成了 32 条线(32wire)的配置。
|
||||
第一代 NVLink 技术采用了一种精巧的设计,每条 NVLink 是由一对双工双路信道组成,通过巧妙地将 32 条配线组合起来,形成了 8 对不同的配对。这种独特的结构使得每个方向上能够实现高效的数据传输,具体来说,就是通过 2 位双向传输(2 bit)乘以 8 对配对(8 pair)再乘以 2 条线(2 wire),最终形成了 32 条线(32 wire)的配置。
|
||||
|
||||

|
||||
|
||||
@ -122,7 +122,7 @@ NVLink 协议通过 25 位 CRC 实现了错误检测,确保了数据传输的
|
||||
|
||||

|
||||
|
||||
初代 DGX-1 通常采用了一种类似于上图的互联形式。不过,IBM 在基于 Power8+微架构的 Power 处理器上引入了 NVLink 1.0 技术,这使得英伟达的 P100 GPU 可以直接通过 NVLink 与 CPU 相连,而无需经过 PCIe 总线。这一举措实现了 GPU 与 CPU 之间的高速、低延迟的直接通信,为深度学习和高性能计算提供了更强大的性能和效率。
|
||||
初代 DGX-1 通常采用了一种类似于上图的互联形式。不过,IBM 在基于 Power8+ 微架构的 Power 处理器上引入了 NVLink 1.0 技术,这使得英伟达的 P100 GPU 可以直接通过 NVLink 与 CPU 相连,而无需经过 PCIe 总线。这一举措实现了 GPU 与 CPU 之间的高速、低延迟的直接通信,为深度学习和高性能计算提供了更强大的性能和效率。
|
||||
|
||||
通过与最近的 Power8+ CPU 相连,每个节点的 4 个 GPU 可以配置成一种全连接的 mesh 结构。这种结构使得 GPU 之间可以直接交换数据,并在深度学习和计算密集型任务中实现更高效的数据传输和协作计算。
|
||||
|
||||
@ -142,7 +142,7 @@ NVLink 协议通过 25 位 CRC 实现了错误检测,确保了数据传输的
|
||||
|
||||
总体上看,英伟达将 NVLink 的带宽从每 GPU 900GB/s 增加了一倍,达到每 GPU 1800GB/s。与上一代产品相比,这是过去几年来 NVLink 带宽的最大跃升,因为 2022 Hopper 架构的 NVLink 带宽仅比上代提高了 50%。
|
||||
|
||||
值得注意的是,尽管英伟达将 GPU 芯片数量翻倍,互连带宽也翻了一倍,因此每个芯片接收的数据量并没有改变。然而,由于两个芯片需要作为单个处理器一起工作,因此需要传输和重新排列的数据总量显着增加。
|
||||
值得注意的是,尽管英伟达将 GPU 芯片数量翻倍,互连带宽也翻了一倍,因此每个芯片接收的数据量并没有改变。然而,由于两个芯片需要作为单个处理器一起工作,因此需要传输和重新排列的数据总量显著增加。
|
||||
|
||||
另一个有趣的方面是,每个 GPU 的 NVLink 数量没有改变,GH100 Hopper 的 NVLink 容量为 18 个链接,Blackwell GPU 的 NVLink 容量也是 18 个链接。因此,NVLink 5 带来的所有带宽增益都来自于链路内每个高速对的 200Gbps 更高信号传输速率。这与前几代 NVLink 的模式是一致的,每次迭代都会使信号传输速率翻倍。
|
||||
|
||||
|
@ -42,7 +42,7 @@ DGX-H100 使用的是第三代 NVSwitch 和第四代 NVLink 技术,其中每
|
||||
|
||||
## NV Switch 详解
|
||||
|
||||
英伟达的 NVSwitch 技术是实现高效 GPU 间通信的关键组件,特别是在构建高性能计算(HPC)和 AI 加速器系统中。
|
||||
英伟达的 NVSwitch 技术是实现高效 GPU 间通信的关键组件,特别是在构建高性能计算(HPC)和 AI 加速器系统中。
|
||||
|
||||
### 初代 NVSwitch
|
||||
|
||||
@ -126,7 +126,7 @@ NVSwitch 支持的网络拓扑结构为构建大型 GPU 集群提供了优化的
|
||||
|
||||

|
||||
|
||||
从上图可以看出,第三代 NVSwitch 采用了 TSMC 的 4N 工艺制造,即使在拥有大量晶体管和高带宽的情况下,也能保持较低的功耗。它提供了 64 个 NVLink 4 链路端口,允许构建包含大量 GPU 的复杂网络,同时保持每个 GPU 之间的高速通信。同时支持 3.2TB/s 的全双工带宽,显著提升了数据传输速率,使得大规模数据集的并行处理更加高效。
|
||||
从上图可以看出,第三代 NVSwitch 采用了 TSMC 的 4N 工艺制造,即使在拥有大量晶体管和高带宽的情况下,也能保持较低的功耗。它提供了 64 个 NVLink 4 链路端口,允许构建包含大量 GPU 的复杂网络,同时保持每个 GPU 之间的高速通信。同时支持 3.2 TB/s 的全双工带宽,显著提升了数据传输速率,使得大规模数据集的并行处理更加高效。
|
||||
|
||||
在信号技术方面,采用了 50 Gbaud PAM4 信号技术,每个差分对提供 100 Gbps 的带宽,保持了信号的高速传输和低延迟特性。
|
||||
|
||||
|
Reference in New Issue
Block a user