新智元报导
来历:sciencealert
修改:张佳
国际才刚刚开始习惯像谷歌和亚马逊这样的公司制作的虚拟助理所发生的力气,假如用一个词描述这些虚拟助理辨认咱们语音的精准度,那就是“难以想象”。
而现在,一个愈加让人“毛骨悚然”的里程碑就在眼前:人工智能体系能够将咱们的大脑活动转化为完好的文本,底子不要求咱们说一个字。
这不是科幻小说。近几十年来,脑机接口的开展日新月异,从动物到人类参与者,已经在测验这种工作。
日前,美国加州大学旧金山分校的科研团队运用人工智能解码体系,把人的脑电波转译成英文语句,精确率高达97%。
论文地址:
这项研讨3月30日宣布在《天然·神经科学》杂志上,题为“Machine translation of cortical activity to text with an encoder–decoder framework”(运用encoder-decoder结构,将大脑皮质活动翻译为文本)。
Edward Chang
这项研讨由华裔科学家、加州大学旧金山分校神经外科教授Edward Chang博士领导。Edward Chang博士的研讨重点是言语、运动和人类情感的大脑机制,一起他也是加州大学旧金山分校和加州大学伯克利分校的合作单位——神经工程与假肢中心的联合负责人。
人脑电波转译成句,精确率高达97%
为了更好的进步精确性,研讨团队运用了一种新的方法来解码皮层脑电图:皮层活动中发生的电脉冲记载,通过植入大脑的电极接纳。
在这项研讨中,四名癫痫患者戴上了这种植入物以监测癫痫发生,研讨团队进行了一项辅佐试验:让参与者朗诵并重复一些固定的语句,一起电极记载他们的大脑活动。
然后,将这些数据输入到神经网络中,该神经网络会依据试验的音频记载,剖析与特定语音信号相对应的大脑活动形式,比方元音、子音或嘴巴动作。
图1:解码进程
尔后,另一个神经网络解码了这些表征(从重复的30–50个白话语句搜集而来),并且运用它来测验猜测正在说的话,彻底根据语句的大脑皮层特征。
图2:解码语句的单词过错率
这个体系发生了一个单词过错率(WER),在最好的情况下,其间一个参与者将大脑信号转换成文本的过错率只要3%。这或许是AI能轻松的取得的最接近于读取人类思维的成果,至少在严厉意义上的试验条件下是这样的。
图3:通过搬迁学习练习的encoder–decoder模型的解码MOCHA-1语句的单词过错率
在他们的论文中,研讨团队具体列举了很多参与者所说的参阅句,以及神经网络发生的猜测,有时是过错的,但并非总是如此。可是,当过错清楚明了时,它们好像与人耳听到的语音成果有很大不同(这或许是引进AI的数据集有限所发生的副作用)。
表1:过错解码的语句示例(左面是参阅句,右边是猜测句)
在最不精确的情况下,这些过错实际上与所说的话没有一点联系,无论是语义上仍是语音上。比方,“she wore warm fleecy woollen overalls”(她穿戴温暖的羊毛工作服)被解读成“the oasis was a mirage”(绿地是一个空中楼阁)。
虽然如此,虽然这些显着的过错十分古怪,但研讨小组以为:整体而言,该体系或许构成了根据人工智能的大脑活动解码的新基准,并且在最好的情况下,与专业人类语音转录适当,单词过错率为5%。
图6:解码进程的图形模型
图7:网络架构
当然,处理普通人说话的专业转录员需求应对的词汇有不计其数个,相比之下,这个体系仅需学习有限的短句中运用的大约250个单词的大脑皮层特征,所以这并不是一个公正的比较。
虽然有许多妨碍需求战胜,但研讨小组以为,该体系有一天或许成为失掉说话才能的患者运用言语修正的根底。假如真的做到这一点就了不得了。
“在一个长时间植入的参与者中,可用的练习数据量将比本研讨中运用的半个小时左右的语音大几个数量级,”作者解说说:“这表明该言语的词汇量和灵活性或许会大幅度提高。”
参阅链接:
https://uracy