包括埃隆·马斯克在内的人工智能专家和行业高管最近发布了一封公开信,要求暂停比OpenAI最近的GPT-4更强大的人工智能开发六个月。像ChatGPT这样的创新引领者是争夺人工智能霸主地位的硬件公司,它们没有放缓的迹象。

包括NVIDIA、高通和谷歌在内的一些业界最大的硬件计算公司最近都在媒体上宣称其设备性能一流。

 

A previous generation of Google's TPUs

上一代谷歌的TPU为一屋子服务器供电。图片(已修改)由谷歌提供

 

在这篇文章中,我们将看看最近的一些公告,以评估它们的说法,并更好地了解人工智能硬件行业的竞争格局。

 

高通公司的最高能效

本周,高通公司宣布其最新提交的MLPerf v3.0是能效领域的领导者。

 

Qualcomm's Cloud AI 100

高通公司的云AI 100。图片由高通公司提供

 

该公司对其推出PCIe Lite加速器的高通云AI 100进行了几次测试。高通公司表示,Cloud AI 100的设计可从35-55瓦的热设计功率(TDP)进行配置,专门用于低功耗和高性能。

高通公司实现了每秒430 K+推理的ResNet-50离线峰值性能,超过了其之前在所有类别中的离线峰值性能、电源效率和延迟记录。提交的材料还实现了241次推理/秒/瓦的功率效率。高通公司声称通过软件优化实现了这些改进,如AI编译器、DCVS算法和内存使用的改进。

 

谷歌宣称超级计算处于领先地位

谷歌本周也发布了自己的重大声明:该公司声称其谷歌云TPU v4为大规模机器学习提供了业界领先的效率。

张量处理单元(TPU)v4是谷歌的第五个领域特定架构(DSA),也是其第三台用于训练大规模机器学习模型的超级计算机。在最近发表给ISCA的一篇论文中,谷歌工程师更详细地描述了TPU4系统。TPU v4的三个主要功能包括其光电路交换机、对DLRM(深度学习推荐模型)中嵌入的硬件支持以及对所有到所有通信模式的支持。

 

1/8th of a TPU v4 pod

TPU v4吊舱的1/8。图片由谷歌云提供

 

在高水平上,TPU v4提供了六倍的机器学习性能,拥有4096个芯片,这些芯片通过可重新配置的光电路交换机(OCS)互连。OCS致力于动态重新配置互连拓扑,以提高规模、可用性、利用率、功率和性能。这使得绕过故障组件更容易,并通过动态改变超级计算机互连的拓扑结构来提高性能。其结果是ML模型的加速性能。每个TPU v4还包括SparseCore,这是一种数据流处理器,可以加速依赖嵌入的模型。

在性能方面,TPU v4的每芯片性能比TPU v3高2.1倍,同时每瓦性能提高2.7倍,平均功耗为200 W。此外,谷歌声称,TPU v4在机器学习系统性能方面的可扩展性是其他ML DSA的约10倍,能效是其他ML DSAs的2–3倍。

 

NVIDIA目前仍处于领先地位

尽管高通和谷歌最近推出了人工智能基准,但NVIDIA仍然占据着可操作人工智能硬件的最高市场份额。事实上,路透社最近报道称,NVIDIA在图形处理单元(GPU)市场上占据了80%的份额,这些芯片为OpenAI的ChatGPT聊天机器人提供了计算能力。AMD在市场份额控制方面(约20%)紧随NVIDIA之后,成为GPU市场的第二大玩家。

虽然目前所有主要的软件工作室都使用NVIDIA的A100处理器,但谷歌声称其最新一代TPU比A100更快、更节能,并声称最受欢迎的选项并不总是等同于性能最好的选项。

 

Google's reported MLPerf training 2.0

谷歌报告称,与A100 GPU相比,BERT(顶部)和ResNet(底部)的MLPerf训练2.0性能。图片由arXiv提供

 

中国加大人工智能投入

在美国大公司争夺人工智能霸主地位的同时,中国也在寻求在国际舞台上确立自己的领导地位。上月底,中国科技部宣布了一个新项目,以加快中国在科学研究中使用人工智能。

这项名为“人工智能促进科学”的新计划在很大程度上是为了回应美国加强对半导体和人工智能等技术的出口管制。这种管制阻碍了中国对人工智能的采用。这项倡议的目标是促进人工智能与科技研究的融合,并加强系统基础设施。

该项目还旨在促进研发团队之间的跨学科合作,并鼓励国际学术交流,以解决癌症治疗和气候变化等常见科学问题。