神经形态感知改变计算机视觉焦点
该技术的创始人之一表示,基于图像相机的计算机视觉技术效率极低,因此需要替代解决方案。 计算机视觉又要自我改造了吗? 匹兹堡大学眼科教授、CMU机器人研究所兼职教授Ryad Benosman认为确实如此。作为基于事件的视觉技术的创始人之一,B...
该技术的创始人之一表示,基于图像相机的计算机视觉技术效率极低,因此需要替代解决方案。
计算机视觉又要自我改造了吗?
匹兹堡大学眼科教授、CMU机器人研究所兼职教授Ryad Benosman认为确实如此。作为基于事件的视觉技术的创始人之一,Benosman预计神经形态视觉——基于事件相机的计算机视觉——将是计算机视觉的下一个方向。
“计算机视觉已经被重新发明了很多次,”他说。“我见过它至少两次被重新发明,从零开始。”
<img data-lazy-fallback="1" decoding="async" src="https://uploads.9icnet.com/images/aritcle/20230426/Ryad-Benosman.jpg">
Ryad Benosman(资料来源:匹兹堡大学)
Benosman引用了20世纪90年代的一个转变,即从使用摄影测量的图像处理转变为基于几何的方法,然后到今天,随着向机器学习的快速转变。尽管有这些变化,现代计算机视觉技术仍然主要基于图像传感器,即产生与人眼所见图像相似的图像的相机。
根据Benosman的说法,在图像传感范式不再有用之前,它阻碍了替代技术的创新。GPU等高性能处理器的开发延长了这种影响,从而推迟了寻找替代解决方案的需要。
“为什么我们要使用图像进行计算机视觉?这是一个耗资数百万美元的问题,”他说。“我们没有理由使用图像,只是因为有来自历史的动力。在拥有相机之前,图像就有动力。”
图像摄像机
自公元前五世纪针孔相机出现以来,图像相机就一直存在。到15世纪,艺术家们建造了房间大小的设备,用来将房间外的人或风景的图像追踪到画布上。多年来,这些画被胶片取代,用来记录图像。数码摄影等创新最终使图像相机很容易成为现代计算机视觉技术的基础。
然而,Benosman认为,基于图像相机的计算机视觉技术效率非常低。他的类比是中世纪城堡的防御系统:城墙周围的警卫向各个方向寻找接近的敌人。鼓手演奏稳定的节拍,在每一个鼓点上,每个警卫都大声呼喊他们所看到的。在所有的呼喊声中,听到一名警卫在远处森林边缘发现敌人的声音有多容易?
21标准时间与鼓点相当的世纪硬件是电子时钟信号,而保护是像素——创建了大量数据,必须在每个时钟周期进行检查,这意味着需要大量冗余信息和不必要的计算。
<img data-lazy-fallback="1" decoding="async" src="https://uploads.9icnet.com/images/aritcle/20230426/Prophesee-Eval-Kit-s.jpg">
Prophesee与索尼合作开发的DVS传感器评估套件。Benosman是Prophesee的联合创始人(来源:Prophesee)
Benosman说:“人们消耗了太多的能量,这占用了城堡的全部计算能力来自卫。”。如果发现一个有趣的事件,在这个类比中以敌人为代表,“你必须四处收集无用的信息,到处都是人在尖叫,所以带宽很大……现在想象一下你有一个复杂的城堡。所有这些人都必须被听到。”
进入神经形态视觉。其基本思想受到生物系统工作方式的启发,即检测场景动力学的变化,而不是连续分析整个场景。在我们的城堡比喻中,这意味着让警卫保持安静,直到他们看到感兴趣的东西,然后喊出他们的位置来拉响警报。在电子版中,这意味着让各个像素决定他们是否看到了相关的东西。
他说:“像素可以自己决定应该发送什么信息,而不是获取系统信息,他们可以寻找有意义的信息——特征。”。“这就是区别所在。”
与固定频率下的系统采集相比,这种基于事件的方法可以节省大量功率,并减少延迟。
他说:“你想要更具适应性的东西,这就是(基于事件的视觉)的相对变化给你的,一个自适应的获取频率。”。“当你观察振幅变化时,如果有东西移动得很快,我们会得到很多样本。如果有东西没有变化,你会得到几乎为零的样本,所以你会根据场景的动态调整你的采集频率。这就是它所带来的。这就是为什么它是一个好的设计。”
Benosman于2000年进入神经形态视觉领域,他坚信先进的计算机视觉永远不可能工作,因为图像不是正确的方法。
他说:“最大的转变是说,我们可以在没有灰度和图像的情况下进行视觉,这在2000年底是异端——完全是异端。”。
Benosman提出的技术——今天基于事件的传感的基础——是如此不同,以至于提交给当时最重要的IEEE计算机视觉杂志的论文未经审查就被拒绝了。事实上,直到2008年开发出动态视觉传感器(DVS),这项技术才开始获得发展势头。
<img data-lazy-fallback="1" decoding="async" src="https://uploads.9icnet.com/images/aritcle/20230426/Prophesee-Applications.png">
Prophesee的一些客户应用程序显示了图像相机和DVS传感器输出之间的差异(来源:Prophesee)
神经科学灵感
神经形态技术是受生物系统启发的技术,包括终极计算机、大脑及其计算元件神经元。问题是,没有人完全理解神经元是如何工作的。虽然我们知道神经元对称为尖峰的传入电信号起作用,但直到最近,研究人员才将神经元描述为相当草率,认为只有尖峰的数量才重要。这个假设持续了几十年。最近的研究已经证明,这些尖峰的时间是绝对关键的,大脑的结构正在这些尖峰中产生延迟来编码信息。
今天的尖峰神经网络模拟了大脑中的尖峰信号,是真实事物的简化版本——通常是尖峰的二进制表示。Benosman解释道:“我收到1分,我醒来,我计算,我睡觉。”。现实情况要复杂得多。当尖峰到达时,神经元开始随着时间的推移对尖峰的值进行积分;神经元也有泄漏,这意味着结果是动态的。还有大约50种不同类型的神经元,具有50种不同的整合特征。今天的电子版本缺少了集成的动态路径、神经元之间的连接以及不同的权重和延迟。
他说:“问题是要制造出一种有效的产品,你不能因为我们不理解它而[模仿]所有的复杂性。”。“如果我们有好的大脑理论,我们就会解决它——问题是我们知道的还不够。”
如今,Bensoman经营着一个独特的实验室,致力于理解皮层计算背后的数学,目的是创建新的数学模型,并将其复制为硅器件。这包括直接监测来自真实视网膜碎片的尖峰。
目前,Benosman反对试图忠实地复制生物神经元,称这种方法过时了。
他说:“在硅中复制神经元的想法之所以产生,是因为人们观察了晶体管,看到了一个看起来像真正神经元的机制,所以一开始就有一些想法。”。“我们没有电池,我们有硅。你需要适应你的计算基板,而不是相反……如果我知道我在计算什么,并且我有硅,我可以优化这个等式,并以最低的成本、最低的功率和最低的延迟运行它。”
处理能力
意识到没有必要精确复制神经元,再加上DVS相机的发展,是当今神经形态视觉系统背后的驱动因素。虽然今天的系统已经上市,但在我们获得可用于商业用途的全人类视觉之前,还有一段路要走。
最初的DVS相机有“大而粗的像素”,因为光电二极管本身周围的组件大大降低了填充因子。虽然对这些相机开发的投资加速了这项技术的发展,但Benosman明确表示,今天的事件相机只是对2000年开发的原始研究设备的改进。索尼、三星和Omnivision的最先进DVS相机具有微小的像素,采用了3D堆叠等先进技术,并降低了噪音。Benosman担心的是,目前使用的传感器类型能否成功扩大。
他说:“问题是,一旦你增加了像素数量,你就会得到大量的数据,因为你的速度仍然很快。”。“你可能仍然可以实时处理它,但你从太多的像素中得到了太多的相对变化。这正在扼杀所有人,因为他们看到了潜力,但他们没有合适的处理器来支持它。”
通用神经形态处理器落后于DVS相机。业内一些最大参与者的努力(IBM Truenorth公司,英特尔Loihi)仍在进行中。Benosman表示,正确的处理器和正确的传感器将是一个不可战胜的组合。
Benosman说:“(今天的DVS)传感器速度极快,带宽超低,动态范围高,所以你可以在室内和室外看到。”。“这是未来。它会起飞吗?当然!”
他补充道:“无论谁能拿出处理器并提供完整的堆栈,都将获胜,因为这将是不可战胜的。”。
注:Ryad Benosman教授将在嵌入式愿景峰会5月17日,在加利福尼亚州圣克拉拉。
>>这篇文章最初发表在我们的姐妹网站上,EE时间.