人工智能初创公司Cerebras推出了迄今为止最大的生成式人工智能芯片WSE-3_科技速览

对更大的可生成人工智能模型的争夺继续推动着芯片行业的发展。英伟达最大的竞争对手之一的脑神经系统公司(Cerebras Systems)昨天公开了其第三代人工智能芯片、世界最大的半导体“晶圆级引擎3”(Wafer Scale Engine 3)。

大脑公司于2021年4月发布了WSE-2。它的继任者WSE-3是为训练人工智能模型而设计的，这意味着在它们投入生产之前，要对它们的神经权重或参数进行优化，以优化它们的功能。

“它的性能是原来的两倍，功耗相同，价格相同，所以这将是真正的摩尔定律的一步，我们在很长一段时间内都没有看到过，”Cerebras的联合创始人兼首席执行官安德鲁·费尔德曼在芯片的新闻发布会上说，他指的是几十年来的规律，即芯片电路大约每18个月翻一番。

WSE-3将执行指令的速度提高了一倍，从62.5千万亿次浮点运算提高到125千万亿次浮点运算。petaFLOP是指每秒进行1,000,000,000,000,000(1千万亿次)次浮点运算。

与上一代产品一样，WSE-3的尺寸几乎相当于一整片12英寸晶圆，其晶体管从7纳米(即十亿分之七米)缩小到5纳米，晶体管数量从WSE-2的2.6万亿个晶体管增加到4万亿个。全球最大的代工芯片制造商台积电(TSMC)正在制造WSE-3。

Cerebras仅将片上SRAM的存储容量从40GB略微增加到44GB，并将计算核的数量从85万个略微增加到90万个，从而保持了逻辑晶体管与存储电路的比例不变。

“我们认为我们现在已经在计算和内存之间取得了适当的平衡，”费尔德曼在发布会中说。发布会在Colovore的总部举行，Colovore是这家初创公司的云托管合作伙伴，位于加州圣克拉拉。

与前两代芯片一样，费尔德曼将WSE-3的巨大尺寸与英伟达(Nvidia)目前的标准进行了比较，这次是H100 GPU，他在幻灯片上称其为“可怜的悲哀部分”。

费尔德曼将WSE-3与英伟达的H100进行了比较，他说:“它的体积是后者的57倍。”“它的核心是原来的52倍。芯片上有800倍的内存。它有7000倍的内存带宽和超过3700倍的网络带宽。这些都是业绩的基础。”

Cerebras使用额外的晶体管使每个计算核心更大，增强了某些功能，例如将“SIMD”能力加倍，即影响每个时钟周期可以并行处理多少数据点的多处理功能。

该芯片封装在新版本的机箱和电源CS-3中，现在可以集群2048台机器，是以前的10倍。这些组合在一起的机器可以进行256 exaFLOPS、1000 petaFLOPS或1 / 4 zetaFLOP的运算。

费尔德曼表示，搭载WSE-3的CS-3计算机可以处理包含24万亿个参数的理论大型语言模型，这将比OpenAI的GPT-4等顶级生成式人工智能工具高出一个数量级，传言GPT-4有1万亿个参数。“整个24万亿个参数可以在一台机器上运行，”费尔德曼说。

需要说明的是，Cerebras正在使用一个没有经过实际训练的综合大型语言模型进行比较。这仅仅是对WSE-3计算能力的演示。

费尔德曼认为，Cerebras的机器比GPU更容易编程。为了训练1750亿个参数GPT-3, GPU将需要20,507行Python、C/ c++、CUDA和其他代码，而WSE-3只需要565行代码。

对于原始性能，Feldman根据簇大小比较了训练时间。费尔德曼表示，2,048个cs -3集群训练meta的700亿个参数Llama 2大型语言模型的速度比meta的人工智能训练集群快30倍:一天比30天。

费尔德曼说:“当你处理这么大的集群时，你可以为每个企业带来超大规模企业自己使用的相同计算，你不仅可以带来他们所做的，而且可以大大加快速度。”

费尔德曼重点介绍了这些机器的客户，其中包括G42，这是一家总部位于阿拉伯联合酋长国阿布扎比、成立五年的投资公司。

Cerebras公司正在德克萨斯州达拉斯的一个设施中为G42开发64台CS-3机器集群，称为“秃鹰星系3”，这是一个由九部分组成的项目的下一部分，预计到2024年底将达到每秒数十百亿亿次浮点运算。

费尔德曼说，和英伟达一样，Cerebras目前的需求也超出了它的能力。这家初创公司“在企业、政府和国际云平台上积压了大量CS-3订单”。

费尔德曼还公布了与芯片巨头高通的合作伙伴关系，将使用后者的AI 100处理器进行生成式人工智能的第二部分，即对实时流量进行预测的推理过程。费尔德曼指出，在生产中运行生成式人工智能模型的成本随着参数数量的增加而增加。他指出，如果地球上每个人都向ChatGPT提交请求，那么运行ChatGPT每年可能要花费1万亿美元。

该伙伴关系应用了四种技术来降低推理成本。费尔德曼说，利用所谓的稀疏性，即忽略零值输入，Cerebras的软件消除了多达80%的不必要的计算。第二种技术是推测性解码，它使用大型语言模型的较小版本进行预测，然后让较大版本检查答案。费尔德曼解释说，这是因为检查一个模型的输出比首先产生输出花费更少的能量。

第三种技术将该机型的输出转换为MX6，这是一种编译后的版本，只需要高通AI 100加速器通常所需内存的一半。最后，WSE-3的软件使用网络架构搜索来选择参数子集，以便在AI 100上编译和运行，这同样可以减少计算和内存使用。

费尔德曼说，这四种方法将高通芯片上每花费一美元处理的“代币”数量增加了一个数量级，代币可以是短语中单词的一部分，也可以是开发人员“副驾驶”的一段计算机代码。费尔德曼指出，在推论中，“性能等于成本”。

费尔德曼说:“通过与高通合作，我们从根本上减少了你花在思考如何从训练参数到生产推理上的时间，并确保了一个无缝的工作流程。”

随着推理从数据中心转移到更多的“边缘”设备，包括企业服务器，甚至是移动设备等能源受限设备，人们普遍预计推理市场将成为人工智能军备竞赛的更大焦点。

Feldman说:“我相信，越来越多的简单推论将走向边缘，而高通在这方面拥有真正的优势。”