我们这一代人面临的主要技术挑战之一是边缘计算:如何承担计算密集型人工智能任务,并在资源受限的嵌入式设备上执行这些任务。在这一追求中,硬件和软件从根本上是不一致的,因为设计师试图同时平衡低功耗、低成本和高性能。

机器学习硬件初创公司SiMa.ai现在正试图通过设计“软件优先”的硬件来应对这一挑战,以实现前所未有的边缘人工智能性能。本周,SiMa.ai发布了他们新的MLSoC平台,这是一款以ML为中心的SoC,旨在使边缘人工智能比以往任何时候都更加直观和灵活。

在这篇文章中,我们将讨论边缘人工智能的现状,以及SiMa.AI的新平台希望如何解决其一些缺点。

 

Edge AI的现状

当涉及到将人工智能推向边缘时,也被称为TinyML,这个过程通常非常以硬件为中心。

一般来说,边缘人工智能的挑战是设备资源非常有限,RAM、处理能力和电池寿命有限。正因为如此,TinyML的设计过程通常围绕着将机器学习模型与设备的大部分预定硬件能力进行定制。

 

Flow chart of quantization-aware training.

量化意识训练的流程图。图片由Novac等人提供

 

为此,软件流程包括采用给定的机器学习模型,在所需的数据集上对其进行训练,然后将其缩小以适应边缘设备的约束。这种模型缩放通常是通过量化过程来完成的,量化过程是降低模型权重和参数的精度,使其消耗更少的内存。

通过这种方式,TinyML的工程师可以采用一个大型机器学习模型,该模型是为部署在更强大的设备上而设计的,并将其缩小以适应边缘设备。

在SiMa.ai看来,这种工作流程的问题在于,模型实际上并不是为边缘设计的,而是为其进行了调整。这在性能和灵活性方面受到了限制,因为模型从未真正针对硬件进行过优化,反之亦然。

 

SiMa的新型SoC解决方案

为了解决这个问题,SiMa.ai最近发布了他们的MLSoC平台,这是一款“软件优先”的边缘人工智能SoC。

MLSoC平台建立在16nm工艺之上,是一个异构的片上计算系统(SoC),集成了许多用于人工智能加速的专用硬件块。在这些硬件中,包括SiMa.ai专有的机器学习加速器(MLA)。该公司表示,它以10 TOPS/W的速度为神经网络计算提供了50个TOPS。

SoC的应用程序处理单元(APU)由四个1.15 GHz Arm Cortex-A65双线程处理器组成。还有一个视频编码器和解码器块以及一个计算机视觉单元(CVU),该单元由四核Synopsys ARC EV74嵌入式视觉处理器组成。这些块由4MB的片上存储器以及32位LPDDR4 DRAM的接口支持。更多信息可在MLSoC产品简介中找到。

 

Block diagram of MLSoC.

MLSoC的框图。图片由SiMa.ai提供

 

然而,除了硬件之外,SiMa.ai声称其MLSoC平台的独特之处在于它是与ML软件工具链共同设计的。具体而言,该公司声称其方法包括精心定义的中间表示,以及新颖的编译器优化技术,以支持广泛的框架和网络。

这些框架包括最受欢迎的TensorFlow、PyTorch和ONNX,同时还声称支持120多个网络。其想法是,通过使用MLSoC软件工具链,工程师可以开发专门针对MLSoC SoC的ML模型,从而实现更大的设计灵活性、效率和性能。

 

TinyML的重新构想方法?

总的来说,该公司声称,与同类竞争对手相比,他们的MLSoC平台目前正在向客户发货,在计算机视觉方面可以提供10倍的性能/功率解决方案。为了支持这一点,他们声称在批处理大小为1的ResNet-50 v1上具有500 FPS/W的同类最佳DNN推理效率。

凭借其独特的软件/硬件兼容性方法,SiMa.ai希望重新想象行业对TinyML的方法,并通过它解锁前所未有的性能和效率。