Content pfp
Content
@
0 reply
0 recast
0 reaction

Chao pfp
Chao
@chao
前天Prime Intellect宣布用去中心化的方式完成了第一个百亿参数模型的训练。训练耗费了7万小时的H100 GPU时间,算力来自全球三大洲30个不同的提供方。 我曾认为那些号称支持去中心化训练的项目都只是忽悠(事实上大部分也确实是),因为大模型训练不仅依赖算力,对训练集群的整体架构也有极高要求。 大模型训练已发展到10万个H100级别,这种多卡集群依赖复杂的分布式计算技术,节点之间必须具备极高的带宽和极低的延迟。目前大家普遍使用的InfiniBand网络带宽可达400Gbps,延迟低至纳秒级别。除了算力和通讯需求,分布式存储、高效缓存、节点同步和一致性、热管理与容错也都是难题,可以说大模型训练满地都是坑。 那Prime Intellect是怎么实现的呢?在2023年11月,DeepMind提出了一个叫DiLoCo的去中心化训练方法,它的工作原理是这样的: 太长了发不全,看图片吧
0 reply
0 recast
4 reactions