Meta 构建分布式 RoCEv2 网络：探索串联数万片 GPU 训练 AI-新科技-资讯-头部财经

Meta 构建分布式 RoCEv2 网络：探索串联数万片 GPU 训练 AI

资讯 » 新科技 2024-08-07

8 月 7 日消息，meta 公司于 8 月 5 日发布博文，表示为了满足大规模分布式 AI 训练对网络的需求，构建了基于 RoCEv2 协议的大规模 AI 网络。

RoCEv2 的全称是 RDMA Over Converged Ethernet version 2，是一种节点间通信传输方式，用于大部分人工智能容量。

meta 公司已成功扩展了 RoCE 网络，从原型发展到部署了众多集群，每个集群可容纳数千个 GPU。

这些 RoCE 集群支持广泛的生产型分布式 GPU 训练工作，包括排名、内容推荐、内容理解、自然语言处理和 GenAI 模型训练等工作负载。

meta 公司为分布式 AI 训练专门建立了一个专用的后端网络，能够独立于数据中心网络的其他部分进行发展、运行和扩展。

训练集群依赖于两个独立的网络：前端（FE）网络用于数据摄取、检查点和日志记录等任务，后端（BE）网络用于训练，如下图所示:

训练机架连接到数据中心网络的 FE 和 BE。FE 的网络层次包括机架交换机 (RSW)、结构交换机（FSW）等，其中包含存储仓库，为 GPU 提供训练工作负载所需的输入数据。

后端结构是一个专门的结构，它以无阻塞的架构连接所有 RDMA 网卡，无论它们的物理位置如何，在集群中的任意两个 GPU 之间提供高带宽、低延迟和无损传输。

为了应对 LLM 模型训练对 GPU 规模的需求，meta 设计了聚合训练交换机（ATSW）层，将多个 AI 区域互连起来。此外，meta 还优化路由、拥塞控制等方面，以提升网络性能。

附上参考地址

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿，经过编辑审核收录，不代表头部财经观点和立场。
证券投资市场有风险，投资需谨慎！请勿添加文章的手机号码、公众号等信息，谨防上当受骗！如若本网有任何内容侵犯您的权益，请及时联系我们。

Meta 构建分布式 RoCEv2 网络：探索串联数万片 GPU 训练 AI

2024-08-070阅读
消息称苹果 iOS 17.6.1 即将面向 iPhone 用户推出

2024-08-070阅读
NVMe 2.1 规范发布：统一存储架构、简化开发流程

2024-08-070阅读
苹果Apple Intelligence智能回复功能加入“反幻觉”指令

2024-08-070阅读
289元！华为发布140W超级快充电源适配器套装：自带1.8米加长线

2024-08-070阅读
超4000个基站！北京联通、华为完成超大规模5G-A商用组网

2024-08-070阅读
冷却塔采购：利用互联网，开启新天地

2024-08-070阅读
深圳商业计划书——智慧城市行业市场现状

2024-08-070阅读
联想高岚：企业智能化转型中，组织转型至关重要

2024-08-070阅读
参与大模型独角兽月之暗面3亿美元融资？腾讯：不予置评

2024-08-070阅读