集合通信行为分析 - 基于NCCL
发布网友
发布时间:2022-11-28 05:08
我来回答
共1个回答
热心网友
时间:2023-10-21 04:08
@(System)[communication]
建立rank间的邻接表。
NCCL会构建tree,ring graph。
依此解析,可得两棵一样的tree,逻辑拓扑如下:
其中socket双工通道建立如下(双工为1个channel):
依此解析,可得两个一样的ring,逻辑拓扑如下:
用户调用NCCL支持的集合通信原语进行通信:
NCCL在getAlgoInfo里面使用ncclTopoGetAlgoTime来计算每个(algorithm, protocol)组,最终选择预计会最快做完指定数据量的指定集合通信原语的algorithm和protocol完成该通信原语。