[{"data":1,"prerenderedAt":28},["ShallowReactive",2],{"news:AI-deep-learning-network-optimization":3},{"code":4,"message":5,"data":6},200,"操作成功",{"createBy":7,"createTime":7,"updateBy":8,"updateTime":9,"id":10,"title":11,"titleEn":12,"keyword":13,"newsDescribe":14,"urlPath":15,"tourl":16,"articleContent":17,"publishType":18,"briefIntroduction":19,"sort":20,"type":18,"publishStartTime":21,"showTime":7,"publishEndTime":22,"publishStatus":20,"isValid":20,"isOld":23,"remark":24,"nickName":7,"numberOfViews":25,"time":26,"year":27},null,45,"2025-08-25 13:40:53",574,"对话 | AI深度学习中的网络互联技术优化","AI-deep-learning-network-optimization"," AI，深度学习，网络互联技术，分布式训练，模型训练","AI深度学习中的网络互联技术优化","public/cloud-official/2025-08-25/a9d9bbc14d5b49048590550d8c6f6515.jpg","news051.html","\u003Cp style=\"line-height: 1.8;\">\u003Cspan style=\"font-size: 12px;\">随着人工智能走向大模型时代，创新算法、模型迭代下动辄千亿规模的参数量和包含了大量图片、文本和视频的数据集，对算力资源和计算基础设施也提出了更高的要求和挑战。急剧膨胀的计算需求将模型训练推向了多GPU训练甚至更大规模的分布式训练，而网络互联技术是实现分布式训练加速效果和可扩展性所必须突破的一道壁垒。\u003C/span>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cbr>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cspan style=\"font-size: 12px;\">深度学习模型运算实际上可以被视为一个通信交互过程：计算集群的每个节点（计算机）通过机间网络相连接，在分别执行一部分计算后将数据在不同节点间进行传输共享，集群每次计算背后的同步通信量通常高达百GB。\u003C/span>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cbr>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cspan style=\"font-size: 12px;\">庞大的模型训练任务，往往需要由大量GPU服务器组成的算力集群连续数月时间协作完成，海量计算加之大规模数据交换需求，使其相较传统CPU和存储集群，对内部互联互通，相互协作的要求不断跃升。有数据显示，GPT-3.5的训练使用了微软专建的AI计算系统，由1万个V100 GPU组成的高性能网络集群，总算力消耗约3640 PF-days (假如每秒计算一千万亿次，需要计算3640天)。\u003C/span>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cbr>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cspan style=\"font-size: 12px;\">如果网络性能跟不上，单个GPU性能再强，也只能“干等着”。据Meta分析显示, 在 AI/DL中,平均有30%的时间用于网络等待，鉴于单个计算节点通常需要花费数十万美元，其闲置时间可能造成的成本损失不可估量。如何打破大模型训练时数据并行下的网络互联藩篱？深度学习系统怎样才能更好地利用网络互联技术使分布式训练获得更大的性能提升？\u003C/span>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cbr>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cspan style=\"font-size: 12px;\">带着这些问题，我们与蓝耘解决方案架构师杨超聊了聊，试图还原这场技术突破历程。以下为专访实录（经编辑）\u003C/span>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cbr>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cspan style=\"font-size: 12px;\">Q：AI进入“深度学习+”的爆发式成长阶段，网络互联是其中不可或缺的关键一环。站在技术架构视角，您是如何定义网络互联技术在深度学习框架中的角色的？\u003C/span>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cbr>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cspan style=\"font-size: 12px;\">A：大家都知道AI的三个核心要素是算法、算力和数据，而网络互联技术是算力互联、算力和数据互联的桥梁。网络互联技术实现了跨卡、多机分布式训练以及对于训练数据的快速访问。\u003C/span>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cbr>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cspan style=\"font-size: 12px;\">Q：深度学习模型训练中有哪些常见的网络互联方式？\u003C/span>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cbr>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cspan style=\"font-size: 12px;\">A：训练中常用的通信方式是集合通信（collective communication），集合通信提供了我们经常听到的AllReduce、Broadcast、AllGather等集合通信原语（collective communication primitives）。\u003C/span>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cbr>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cspan style=\"font-size: 12px;\">Q：我们知道RDMA是专为解决网络传输中服务器端数据处理延迟的一种高带宽、低延迟的网络互联技术,克服了传统TCP/IP网络的许多瓶颈。其技术原理和主要实现方式有哪些？\u003C/span>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cbr>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cspan style=\"font-size: 12px;\">A：RDMA 是Remote Direct Memory Access的简写，是一种应用程序通过网络将内存数据直接传输到另外一台主机的技术。RDMA可以运行在Infiniband和以太网上，RoCE是RDMA在以太网络上的实现。咱们现在谈论的RDMA基本上指的是GDR-GPUDirect RDMA，是通过网络将显存中的数据在GPU之间传输的技术，这样做避免了操作系统的介入，节省了在显存和内存之间拷贝数据的过程，可以提升分布式训练的效率。\u003C/span>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cbr>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cspan style=\"font-size: 12px;\">Q：结合具体工作实践，谈谈您对大规模训练场景中面临的网络互联瓶颈与技术挑战方面的理解。\u003C/span>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cbr>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cspan style=\"font-size: 12px;\">A：在大规模训练场景中，网络互联的挑战来自于以下几个方面：首先是在方案设计阶段如何规划一个高性能、无阻塞的网络，交换机之间、交换机和节点之间如何互联；其次是完成组网后如何验证网络的可用性和可靠性；第三是在生产环境中如何有效地对网络进行监控，及时发现网络中的问题。\u003C/span>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cbr>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cspan style=\"font-size: 12px;\">对于以上挑战，蓝耘提出一整套测试方案以验证每条线缆的可靠性，通过在智算中心中部署监控平台，可在数千条线缆和模块中及时发现并处理故障点。\u003C/span>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cbr>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cspan style=\"font-size: 12px;\">Q：作为“压榨”算力必须迈过的一道“坎”，怎样从网络通信层面进行优化或升级，以提升GPU算力利用率，实现算力降本增效？\u003C/span>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cbr>\u003C/p>\u003Cp style=\"line-height: 1.8;\">\u003Cspan style=\"font-size: 12px;\">A：在这里除了刚才提到的要为训练集群提供一个高速稳定的无阻塞网络之外，还可以考虑采用网络计算（in-network computing）技术，利用网络中的网卡和交换设备进行数据计算，降低通信延迟、提升整体计算效率；另外，采用DPU卡实现网络功能的卸载（offload），释放更多系统资源，也有利于提升系统整体计算效率；更高的网络性能和更低的延迟能够为计算和存储带来极大的性能提升。以上这几点都是蓝耘智算中心目前已经采用的或未来的技术发展方向。我们也在持续关注着最新的行业动态，例如可编程交换机、可重构光交换等新技术。\u003C/span>\u003C/p>",2,"随着人工智能走向大模型时代，创新算法、模型迭代下动辄千亿规模的参数量和包含了大量图片、文本和视频的数据集，对算力资源和计算基础设施也提出了……",1,"2023-11-22 00:00:00","2025-08-22 17:02:18",0,"旧数据处理-20250814",240,"00:00:00","2023年11月22日",1775720836237]