ASI前瞻:全球首个AI专用数据中心网络协议发布,优化万卡集群通信效率
随着千亿参数大模型成为常态,AI产业正面临着一个严峻挑战:当计算从单机转向集群,网络通信开销已成为制约算力提升的主要瓶颈。在万卡级别的AI训练集群中,GPU有超过30%的时间处于等待数据同步的状态,而非实际计算。
2025年,超以太网联盟(UEC)正式发布了Ultra Ethernet 1.0规范,这是全球首个专为AI和高性能计算设计的网络协议标准。这一协议的出现,标志着AI数据中心网络从“通用”走向“专用”的重要转折点。
01 网络瓶颈:AI集群规模化的隐形障碍传统数据中心网络设计面对AI工作负载显得力不从心。当大模型参数规模突破万亿级别,每次训练迭代产生的梯度同步数据量可达数百GB,这要求网络不仅要提供超高带宽,更要保证极低延迟和近乎零丢包率。
在传统TCP/IP架构中,数据需要经过多次拷贝和协议处理,导致延迟高达百微秒级别,且CPU占用率惊人。而AI训练中的All-Reduce操作要求所有GPU节点在极短时间内完成数据同步,任何延迟都会导致整个集群等待。
InfiniBand虽在性能上有所优势,但其封闭生态和有限规模难以支撑万卡集群的扩展需求。超以太网联盟的成立正是为了打破这一困境,致力于打造开放、高性能的AI网络标准。
02 超以太网协议的技术革新超以太网协议的核心突破在于其彻底重新设计了传输层,推出了超以太网传输层(UET)协议。与传统的TCP/IP和RoCE协议相比,UET针对AI工作负载进行了深度优化。
多路径数据包喷洒技术是UET的灵魂所在。该技术将单个数据流分散到多条网络路径上并行传输,彻底解决了传统ECMP(等价多路径)哈希极化导致的链路利用率不均问题。在AI训练中产生的“大象流”可借此实现真正的全网带宽利用。
UET协议还引入了灵活的有序/无序传输机制。不同于传统协议严格按序交付的约束,UET允许应用根据自身需求选择是否要求数据包按序到达。这种灵活性显著降低了队头阻塞带来的延迟。
超以太网协议的另一个创新是其动态拥塞控制机制。通过硬件加速的显式拥塞通知和数据包裁剪技术,网络能够在微秒级别内识别并响应拥塞,避免丢包导致的性能断崖式下跌。
03 性能提升:从理论到实践的跨越超以太网协议的性能优势在实际部署中表现显著。测试表明,相比传统以太网,超以太网可将AI训练任务的完成时间缩短40%以上。对于拥有数万张GPU的超大规模集群,这一提升意味着数百万美元的计算资源节约。
在带宽利用率方面,超以太网实现了从传统以太网的约60%到超过90%的飞跃。以腾讯星脉网络为例,通过采用类似技术理念,其网络利用率显著提升,为AI大模型带来10倍通信性能提升。
延迟指标同样令人印象深刻。UET协议的首包延迟可低至纳秒级,即使在大规模乱序交付场景下也能保持稳定的微秒级延迟。这一特性对AI训练中频繁发生的小消息同步通信至关重要。
04 产业化进程与生态建设超以太网协议的标准化进程迅速推进。自2022年AMD、博通、英特尔、微软等公司首次组建工作组以来,超以太网联盟已发展成为拥有超过100家成员企业的庞大生态系统。
芯片厂商已开始积极布局。新思科技于2025年6月率先推出支持Ultra Ethernet的IP解决方案,支持横向扩展至100万个端点,带宽可达1.6Tbps。这一进展为超以太网协议的硬件落地奠定了基础。
主流云服务商也在积极拥抱这一新技术。微软Azure、Meta等公司已经开始在自家数据中心测试并部署超以太网协议,旨在为下一代AI训练平台提供网络支撑。
华为则选择了另一条路径,推出了UB-Mesh统一互联技术,旨在通过单一协议取代PCIe、CXL、NVLink和TCP/IP等多种互联标准。华为计划开源该技术,推动其成为行业标准。
05 挑战与局限:理想与现实的差距尽管超以太网协议前景广阔,但其在实际落地过程中仍面临多重挑战。协议兼容性是首要难题。现有数据中心大量部署的传统以太网设备无法直接享受超以太网的全部性能优势,升级成本惊人。
运维复杂度不容忽视。超以太网引入了全新的网络管理范式,需要运维团队掌握新的技能和工具。从传统的TCP/IP网络迁移到超以太网不仅涉及硬件更换,更需要整套运维体系的升级。
多厂商互操作性是开放标准永远面临的挑战。尽管规范定义了标准接口,但不同厂商的实现可能存在细微差异,这些差异在万卡规模下可能被放大为致命问题。
超以太网协议的性能优势依赖于全栈优化,从网卡、交换机到驱动和应用程序都需要进行相应调整。这种全栈依赖使得迁移成本大幅增加,可能延缓其普及速度。
06 未来展望:AI定义网络的新时代超以太网协议的发布只是开始,AI数据中心网络将进入一个快速演进的新阶段。网络与计算的协同设计将成为趋势,AI工作负载的特性将更深地影响网络架构的设计决策。
可编程网络硬件将迎来爆发式增长。随着AI工作负载的多样化,固定的网络协议已难以满足所有需求,可编程交换机、智能网卡等技术的普及将使网络能够根据具体AI模型进行动态优化。
拥塞控制算法智能化是另一个重要方向。传统静态算法无法适应AI训练流量的突发特性,基于机器学习的动态拥塞控制算法将逐步成为高端AI网络的标配。
华为提出的“SuperNode”架构愿景可能代表长期发展趋势:整个数据中心作为一个连贯的超级节点运行,处理器、内存和存储设备通过统一协议无缝互联,彻底消除协议转换开销。
未来五年,AI数据中心网络将迎来更加深刻的变革。华为提出的SuperNode架构可能从概念走向现实,将整个数据中心变成一个连贯的超级节点。而腾讯星脉网络已经证明,通过自研协议和通信库优化,网络利用率可以从60%提升至90%以上。
网络协议标准的竞争本质上是生态系统的竞争。超以太网背靠庞大的以太网生态系统,具有天然的兼容性优势;而NVLink-InfiniBand组合则在性能上暂时领先。这场竞争将深刻影响未来AI算力格局的分布。 |
手机版|ASI网-未来AI社区 ( 闽ICP备2025094058号-10 )|网站地图
GMT+8, 2026-2-11 09:38 , Processed in 0.087540 second(s), 19 queries .
Powered by Discuz! X3.5
© 2001-2026 Discuz! Team.