HCCL 同交换机下的2机和4机测试
来源:互联网
时间:2026-06-23 07:28:08
910B采用的是单轨接入方案,单机测试HCCL时,测的其实是机内HCCS的带宽和延迟——说白了,就是单机内部通信的表现。可一旦场景扩展到多机,就需要通过ROCE交换机来互联了,而后续训练与推理的瓶颈,恰恰就卡在这个环节。
先看单机场景:
mpirun -f hostfile.2 -n 16 ./bin/all_reduce_test -p 8 -b 1G -e 1G

再扩展到四机互联:
mpirun -f hostfile.4 -n 32 ./bin/all_reduce_test -p 8 -b 1G -e 1G

实测下来,四台互联后HCCL的测试带宽出现了明显下降。这也印证了前面的判断:跨机互联的ROCE网络,才是决定整体性能的关键瓶颈所在。