可穿戴设备依赖于人机界面,该界面具有标准的物理能力,如语音、触摸或运动。虽然这种机器交互形式适合大多数消费者,但残疾人可能会发现很难或不可能操作标准的可穿戴设备。

为了制造能容纳更多人的可穿戴设备,研究人员正在研究新的人机界面。

 

EchoSpeech eyeglasses

博士生张瑞东戴着EchoSpeech眼镜。图片由《康奈尔纪事报》提供

 

本周,康奈尔大学的一个团队发表了一篇论文,描述了一副为无法发声的用户配备无声语音接口(SSI)的智能眼镜。在本文中,我们将讨论来自康奈尔大学的无声语音接口和可访问的可穿戴原型。

 

什么是无声语音接口(SSI)?

无声语音接口允许人们在不发声的情况下与机器进行交互。虽然人工智能助手(如苹果的Siri)等技术通过声音通信工作,但SSI通过语音相关动作来解释通信。

 

Example of an SSI

由多个不同传感器输入组成的SSI示例。图片由SpringerBriefs提供

 

SSI技术通过口腔和舌头的运动而不是声音来识别语音。为此,SSI依赖于各种不同的传感器,包括放置在口腔附近的振动传感器,以检测人口腔的振动,以及跟踪和分类语音相关运动的摄像头。在许多情况下,这些信息由机器学习算法处理,该算法解释口腔的运动并将其翻译成单词。

虽然大多数人可能找不到SSI的用途,但这项技术对于因疾病或受伤而失声的人来说至关重要,使他们能够更容易地交流。例如,患有声带损伤或影响言语的神经系统疾病的医疗患者可以从SSI中受益匪浅。

 

康奈尔大学开发无摄像头SSI眼镜

本周,康奈尔大学的研究人员发明了基于SSI的智能眼镜,在SSI技术方面取得了重大进展。

该系统被称为EchoSpeech,是一种新颖的、侵入性最小的SSI技术,它使用低功率主动声学传感来捕捉无声语音引起的细微皮肤变形,并将这些信息转换为可操作的数据。智能眼镜原型建立在康奈尔大学之前对一种类似的声学传感可穿戴设备(“EarIO”)的研究基础上,该设备可以从耳朵内跟踪面部运动。

 

A user setup for EchoSpeech

EchoSpeech的用户设置。图片由Zhang等人提供。

 

该系统依靠安装在眼镜架上的一系列扬声器和麦克风向皮肤发射听不见的声波。输出的波产生沿着多个路径传播的回声,并由系统解释以推断佩戴者的无声语音。EchoSpeech可以完全在标准智能手机上运行,只需要一到六分钟的训练数据,并以73.3 mW的低功耗实时运行。然后,该团队的内部深度学习算法以大约95%的准确率实时分析回声轮廓。

该系统通过对12名参与者的用户研究进行了评估,并成功证明了识别31个孤立命令和三到六位数连接数字的能力,单词错误率(WER)分别为4.5%(标准3.5%)和6.1%(标准4.2%)。此外,在包括步行和噪声注入在内的场景中测试了该系统的鲁棒性。

 

更私密、低功耗、无障碍

大多数SSI技术都使用面部摄像头来收集用户和用户通信对象的数据。除了引起隐私问题外,可穿戴相机还收集高带宽视频数据。

由于EchoSpeech消除了对可穿戴摄像机的需求,该设备只捕获音频数据,而音频数据所需的带宽远低于图像或视频数据,并且可以通过蓝牙实时发送到手机。私人信息永远不会离开用户的控制,因为数据是在智能手机上本地处理的,而不是在云中处理。研究人员表示,纯音频传感器的电池效率也更高:声学传感的工作时间为10小时,而相机的工作时间则为30分钟。

康奈尔大学的团队表示,他们认为EchoSpeech受益于许多用例,从无声地说出密码解锁智能手机到跳过播放列表中的歌曲。该设备还可以与智能手机配对,在嘈杂的餐厅或安静的图书馆等言语不便或不礼貌的地方与他人交谈。研究人员表示,该界面与手写笔和CAD等设计软件兼容,无需鼠标和键盘。