初创企业Enfabrica的加速计算结构解决了云中的AI/ML问题
这家网络硅和软件公司今天在首届MemCon上摆脱了隐形模式,推出了新的加速计算结构(ACF)设备,旨在解决人工智能计算中的接口瓶颈和可扩展性挑战。2023年3月28日作者:Dale Wilson
除非你在过去的六个月里一直生活在岩石下,否则你已经见证了人工智能应用程序ChatGPT、Dall·E、Bard和Bing的巨大增长。据估计,仅ChatGPT在推出两个月后就达到了1亿的月用户。
网络I/O瓶颈
人工智能流量的激增在网络和分布式计算基础设施中造成了瓶颈。早在2020年,Enfabrica就认为,扩展现代高性能分布式计算的性能和容量受到I/O的限制。内存容量快速增长,GPU性能呈指数级增长,但I/O没有跟上,如下图所示。
网络I/O性能与GPU计算性能不同步。图片由Enfabrica提供
Enfabrica首席执行官Rochan Sankar向All About Circuits解释说,人工智能的高级挑战是“它通过一个100或200 Gig的NIC将大量数据输入和输出服务器节点;这是一个最初设计用于与CPU配对的微小元件。”他接着详细阐述了与这个基本问题相关的三个问题:
- 资源的严重搁浅。虽然CPU被很好地虚拟化了,但其他昂贵的资源,如GPU和内存,却没有得到充分利用。
- 现有的I/O设备堆栈效率低下,因为它是为不同的需求而构建的。
- 其他创建产品解决方案的公司正在使用“更专有或孤立”的方法,而不是以太网、PCI和CXL等行业标准。
解决日益增长的网络I/O问题
Enfabrica的联合创始人Rochan Sankar和Shrijeet Mukherjee在博通、谷歌和思科等行业巨头的工作中拥有数十年的网络基础设施经验。正如Sankar向All About Circuits解释的那样,他们并不是唯一一个认识到迫在眉睫的I/O问题的人,但他们相信自己有更好的方法来解决这个问题。有了这些想法,他们组建了自己的团队,并开始致力于颠覆互连硅市场,据估计,这个市场很快将价值200亿美元。
作为其设计的核心,Enfabrica希望用其加速计算结构取代多层网络基础设施(见下图)。Sankar解释说,Enfabrica体系结构“充当了一个轮辐式模型”,可以“分解和扩展任何任意的计算资源”。他接着解释道,“无论是CPU、GPU、加速器、内存还是闪存,它们都可以连接到这个集线器,有效地充当它们的聚合I/O结构设备。”
加速计算结构设备旨在折叠多个网络层以提高性能。图片由Enfabrica提供
除了在这些系统中引入新的硬件架构的挑战外,Sankar指出,你不能改变软件层。“一开始就需要付出大量努力才能实现这一点。因此,引入硬件技术或网络技术来迫使这一点发生改变实际上是很有问题的。”Enfabrica的目标是让其硬件“使用与今天相同的接口和相同的API集”运行
行业标准和开源
尽管包括行业巨头英伟达在内的其他公司正在通过专有接口解决方案解决这一网络问题,但Enfabrica将PCIe和CXL等行业标准与开源软件框架结合使用。
桑卡尔很快指出,他们正在“提供一种替代的扩张方式”。他认为,“英伟达将在相当长的一段时间内成为这个生态系统的核心。”因此,他们不希望取代英伟达,而是增加现有的解决方案。“我们可以添加一层高容量内存”,客户可以“利用它来扩展非常大的语言模型”
ACF第一硅
如下图所示,第一代先进计算结构交换机(ACF-S)正在台积电用其5 nm FinFET工艺制造,该工艺部分是为此类高性能计算应用而开发的。
Enfabrica第一代多Tbps服务器结构硅IC架构。图片由Enfabrica提供
ACF-S设计用于在单个硅芯片中提供异构计算和内存资源之间的多兆比特交换和桥接,而无需更改设备驱动程序之上的物理接口、协议或软件层。Sankar解释说,交换芯片“三明治”层“高性能以太网交换管道、大型共享缓冲区、我们称之为万亿比特NIC复制引擎以及高性能PCIe Gen5和CXL 2.0+交换。”
“这些加速计算结构产品旨在创建可按需联网和供应的弹性资源池,以创建更灵活的实例。这是能够扩展以满足下一代工作负载的需求并以总拥有成本可持续的方式实现这一目标的一个重要因素。”
云经济的超级计算机性能
如果你的目标是颠覆一个200亿美元的行业,你最好带着一些重大的改进来。在我们的讨论中,Sankar强调了他们预见到的先进计算结构的一些好处:
- 将AI集群扩展10倍,从数百个节点扩展到数千个节点
- I/O带宽每$
- 减轻GPU、DRAM和SSD的搁浅,以提高利用率
- 节点间延迟降低高达75%
- 人工智能集群总拥有成本降低50%
- 将GPU机架和集群的功耗降低至少10%
如果他们成功了,Sankar相信Enfabrica可以帮助“在高性能超级计算和云规模分发之间架起世界的桥梁”,人工智能是驱动这些需求的核心工作负载。“人们想要云经济,但他们想要超级计算机的性能。”
Enfabrica计划在今年晚些时候发布特定产品的公告。与此同时,如果你今天参加MemCon,你可以在下午4:25查看联合创始人兼首席开发官Shrijeet Mukherjee的Enfabrica关于打破分布式计算中的数据移动瓶颈的演讲。