当红的生成式人工智慧ChatGPT,可以说是颠覆了很多人对AI的想像,更重要的是,它真正带起AI技术的应用,甚至把AI运算加速的重要性浮上檯面。本场的【东西讲座】特別邀请创鑫智慧事业开发经理陈品函担任讲者,藉由自身多年的观察与经验,帮大家解开为何需要AI运算加速,同时也探讨其应用的潜能。



图一 : 创鑫智慧事业开发经理陈品函解说为何需要AI运算加速,同时也探讨其应用的潜能。
图一 : 创鑫智慧事业开发经理陈品函解说为何需要AI运算加速,同时也探讨其应用的潜能。

创鑫智慧(NEUCHIPS)是由资深IC及软体设计专家团队,于2019年成立的AI ASIC解决方案提供商,也是一家AI运算加速器IC设计公司,过去在神经运算网络有领先的技术,更在信号处理和电路设计方面拥有多项专利,目前致力研究在加速运算过程中,如何减少记忆体耗用量。


陈品函表示,三十年前计算机对当时来说就已经是AI了,直至2016年发现影像分析软体开始可用机器学习或深度学习解决AI问题的时候,大部分关注在影像处理和物件辨识。而去年Open AI开放ChatGPT给普罗大众使用,才算是让大多数的人认知到AI能协助许多事。


陈品函指出,机器学习中使用的硬体技术,以现阶段产业界上面,绝大多数在训练(training)上会使用GPU,用到的数学复杂程度相对高很多,也需要很多的互动运算;推论(inference)相对来说,一般的CPU还是可以达成的,其实还是取决于应用在哪个面向,来选择合适运算的硬体。


根据计算密集、应用需求和市场需求,AI加速运算主要是指利用特殊设计的硬体和软体优化,提升AI演算法执行速度和效能的方法。而机器学习和深度学习的训练与推论,会针对训练好的模型进行部署推论,对所有的训练资料进行多次的计算得到效果最好的学习模型。


AI应用与商机切入点 将是未来面临的限制与挑战

图二 : 创鑫智慧事业开发经理陈品函
图二 : 创鑫智慧事业开发经理陈品函

生成式AI涵盖非常多的矩阵式运算,例如GEMM(General Matrix to Matrix Multiplication;通用矩阵乘法)是神经网络中基本的运算子,在缐性代数、机械学习、统计与其他领域中常见的运算;GEMV(General Matrix to Vector Multiplication;矩阵向量乘法)为一维矩阵。


陈品函表示,过程中GPU、CPU的支援,需要消耗多少的能源来去完成指令,可能相对就沒有ASIC来得好,现今有许多AI新创公司针对看到的应用,需要的矩阵大小也有所不同,运算过程中资料如何地抛转、网路的呈现、特別的IC设计,整体效能将会提高。


为了晶片的发展回到两个面向,包括弹性(Flexibility)的AI数据中心,同质处理元件、一般拓朴数组/网格/环等;客制化(Custom/Application Specific)的车用AI,在沒有GPU那样有强大的记忆体与运算式之下,硬体设计高度定制会调整到软体和系统需求,另外还有异质处理元件等。


AI运算加速所面临的限制与挑战,包含让普罗大众最有感的ChatGPT在过去几年快速累积使用者,但AI的落地应用与商机尚未有头绪,因此AI导入的难题,消费性产品仍在找寻切入点,目前只侷限在手机app;AI晶片有所不同,云端市场门槛高;如何从GPU开发环境做转换、地缘政治等。


创鑫智慧针对使用者推荐作运算加速,RecAccel N3000是一种特定领域架构(DSA)ASIC,用于深度学习推荐模型的数据中心推论;不但获得专利的FFP8产生最高的8位精度和专有的INT8校准器;创新的嵌入引擎设计用于全面优化数据片上和片外的位置和记忆体存取。


另外,获得专利的动态MLP引擎(DME)提高了吞吐量,同时能降低功耗;RecAccel编译器使用AI实现高度优化的低功耗动态嵌入分片等。