这个曾经打造出世界最大AI芯片的Cerebras,这次又为我们大家带来了世界最大的AI超级计算机:Condor Galaxy1(CG-1)!
CG-1以秃鹰星系命名,比我们的银河系要大上五倍。这一个名字所代表的野心可谓是昭然若揭了!
那么就让我们来看看,这个叫Condar Galaxy的超级计算机究竟有哪些过人之处?
拥有64个CS-2节点、5400万核心、4 ExaFLOPs算力、并支持6000亿参数模型,第一次训练运行时间只需要10天。
不仅如此,Cerebas还与阿联酋技术控股集团G42达成了战略合作,准备联手打造一个由9台CG-1互联、基于云的AI超级计算全球网络:Condor Galaxy。
目前CG-1已在加利福尼亚州圣克拉拉部署成功,其余的CG2、3......将在18月内部署完成。
「这太疯狂了!Condor Galaxy完成后,我们将拥有一个可提供36 exaFLOPs训练能力的超级AI 计算网络。这在某种程度上预示着我们届时会拥有576个CS-2、近5亿个核心,内部带宽达到3,490 TB。我们将需要超过5亿个AMD Epyc来为咱们提供数据。」
Condor Galaxy将显著减少AI大模型训练所需的时间,同时,Condor Galaxy 基于云的服务将允许其他人也能轻松访问业界最优秀的AI计算能力,从而推动全球数百个人AI项目的发展。
而且像这么能打的超算总共有9个,2024年完工。总计36 ExaFLOPS的AI算力,说一句世界最强不为过吧。
2022年,Cerebras已经是世界上最大、最强大的AI处理器芯片了。
这是一种全新的系统架构,可连接多达192个Cerebras的CS-2系统,并作为单个逻辑加速器运行。这种设计将内存与计算解耦,能够为AI模型部署TB级内存,而仅使用GPU只能部署GB级的内存。
在晶圆级集群上仅使用数据并行性训练大型模型的新方法。Cerebras表示,他们发现客户在训练大型GPU模型时遇到了些困难。Cerebras的解决方案利用了硬件的大规模计算和内存的特性,以纯数据并行的方式,通过逐层流式传输模型来分配工作。
首先,它为Cerebras的晶圆级集群提供了设计参考,使他们可以更快速、轻松地为客户构建新的AI超算。
第二,它提供了一个训练大型生成模型的世界级平台,使Cerebras能够在短短几周内训练出7个Cerebras-GPT模型,并与全世界共享这些开源模型。
第三,它成为了Cerebras云的旗舰产品,为客户使用Cerebras的系统打开了大门,而无需采购和管理硬件。
而今天宣布的CG-1则是所有这些努力的结晶——它是Cerebras部署过的最大的AI超算,得益于Andromeda,Condor可以在短短两周内就完成部署。
目前,它已经训练了多个大型语言模型,涵盖阿拉伯语等全新数据集。它通过Cerebras云和G42云给全球的客户提供服务。
CG-1目前由32个CS-2系统组成,已在圣克拉拉的Colovore数据中心启动并运行。
Cerebras将把CG-1的规模扩大一倍,将其扩展到64个CS-2系统,速度为4 exaFLOPS。一个64节点系统代表一个完整的超算实例。
Cerebras们将在全美再建立两个完整的超算,使部署的计算中心总数达到3个,计算能力达到12 exaFLOPS。
再建设6个超算中心,全部安装达到9个,AI计算能力达到36 exaFLOPS。
走完这四步,Cerebras就会是全球公共AI计算基础设施排名前三的公司了。
2024年全面部署Condor Galaxy后,其将变成全球上最大的云AI超算之一。运算能力达到36 exaflops,是英伟达以色列一号超算的9倍,是谷歌已发布的最大TPU v4 pod的4倍。
Cerebras为G42管理和运营CG-1,并通过Cerebras云提供,用于人工智能训练的专用超级计算实例对模型开发至关重要。
自Andromeda发布以来,Cerebras一直在提供基于云的访问Cerebras系统的服务,最多可连接16个CS-2系统。
随着CG-1的推出,Cerebras现在正在扩大Cerebras的云服务,包括最多64个系统的全配置人工智能超级计算机,为客户提供一键访问4 exaFLOPs人工智能性能的服务。
虽然GPU是强大的通用加速器,但人们一致认为,对大型GPU集群进行编程是ML研发人员面临的巨大技术障碍。
Cerebras对这些库进行了深入分析,发现在GPU集群上训练一个模型平均需要约38000行代码。
Cerebras晶圆级的集群,无论是1个节点还是64个节点,从根本上说都是作为一个单一的逻辑加速器来设计的。
由于CG-1具有82 TB的统一内存,Cerebras的团队还可以将最大的模型直接放入内存中,而无需任何分区或额外的代码。
在Cerebras上,100B参数模型使用的代码与1B模型相同,不需要任何流水线或模型并行性。
效果就是,在Cerebras上实现标准的GPT仅需1200行代码,比行业领先框架的平均代码简洁30倍。