出品 | AI科技大本营(ID:rgznai100)
10 月 31 日,由北京智源人工智能研讨院主办的 2019 北京智源大会在国家会议中心开幕,本次大会环绕人工智能基础研讨现状及面对的机会和应战、人工智能技能未来展开的中心方向等论题,回归 AI 技能自身,展开深化研讨,探究人工智能前沿科技展开趋势。
在榜首天的主论坛上,美国加州大学洛杉矶分校的朱松纯教授带来了《走向通用人工智能:从大数据到大使命》的主题讲演,并提出了使命是智能中心的观念。
以下是朱松纯讲演内容实录,AI科技大本营(ID:rgznai100)收拾:
关于通用人工智能,每个人都有自己的主意,有人以为不行能,有人以为立刻就要到来,并且会很可怕。不论哪一种观念,咱们都要扎扎实实地去研讨问题,今日我给咱们同享一个从大数据到大使命的思路。
榜首,人工智能的两种范式之争:大数据VS 大使命;第二,智能的中心中心是使命,每时每刻都被各式各样的使命驱动;第三,怎样经过构建一个大使命的渠道,来研讨通用人工智能。
两种AI范式之争:“大数据”对“大使命”
首要是两个范式之争。假如你问大部分人工智能的研讨者,他们会告知你AI = B+C+D,也便是人工智能等于大数据加上算力加上深度学习,这是被遍及承受的观念,可是我一直在对立这个观念。几年前我对立把深度学习作为人工智能之解时,许多人还很不满,可是今日许多人现已赞同这个观念了。
现在以大数据驱动的人工智能,在工业落地的进程中遇到了许多问题,这个问题其实一早就能够预想到。比方只能做特定的、人类事前界说的使命,而不能做通用使命,或许自己界说使命。第二,每项使命需求许多的数据,本钱十分高,并且模型不具有解说性,常识表达与人不同。
其实咱们是最早做大数据的一个团队。2005年,咱们带领了一批国际学者,包含后来在斯坦福标示 ImageNet 的人,以及后来的 MIT 试验室主任等,在我国湖北莲花山标数据。其时大数据刚刚鼓起,咱们雄心壮志地想标数据,拟定了200 多页的数据标示手册,包含莲花怎样分化,花蕊、花瓣以及日子环境等。
标了几年之后,我发现这儿面有问题。一些学生刚开端问我怎样标示时,我还能答复,可是后来我就答不出来了。所以我发现这条路走不通,所以2009 年左右,我就转型去做认知科学。
我之前写过一篇文章,介绍了两种人工智能的形式。
一种称之为“鹦鹉范式”,鹦鹉能够与人类对话,可是不了解你在说什么。比方你说林黛玉,它也说林黛玉,可是它并不知道林黛玉是什么。
还有一种是“乌鸦范式”。乌鸦找到核桃之后,会把核桃扔在路上,让车去压,压碎了再吃。可是由于路上车太多乌鸦吃不到核桃,所以乌鸦把核桃扔到斑马线上,由于这儿有红绿灯,绿灯亮时车都停住了,它就能够去吃。这个比方是十分惊人的,由于乌鸦既没有大数据,也没有监督学习,却完全能够自主地研讨其间的因果关系,然后运用资源完结使命,并且功耗十分小,小于 1瓦,这给了咱们很大的启示。
可是乌鸦能做到的不只是这些,它们还知道怎样运用东西,我信任直到今日,许多机器人的规划才干都远达不到乌鸦对物理的了解。
假定咱们要界说一个人工智能体系,我能够以为任何一个动物、机器都是 AI 体系,它往往决议了三个要素:榜首是构架,你的脑袋里缺一块,就永久进化不到一个层次,人的智能90% 多都是天然生成的;第二是环境数据;第三是使命。
榜首种层次的解法是用大数据给一个使命,比方人脸辨认。给一个构架,比方深度学习有多少层,这便是现在通用的大数据体系。我以为人类走了别的一条路,便是有很小量的数据,可是有很许多的使命,不过人类有很高档的构架,这就成了别的一个体系。
举个比方,怎样教核算机学会辨认椅子?用大数据的办法很简略,也十分暴力。便是查找许多的比方,用人工标示。你需求收集各种原料、各种摄像头视点的椅子,穷举后拿去练习,练习之后体系记住这些特征。可是艺术家总是规划新的椅子出来,总是有特例,机器总是搞不清楚,所以不行泛化,不行解说什么是椅子,这便是它的中心问题所在。在主动驾驶、视频监控等范畴都存在这样的问题,即不能穷举一切的比方。
第二种层次的解法是什么呢?假定咱们要了解椅子,界说什么是椅子。首要取得人的经典坐姿,之后用坐姿拟合图画,各种方位、各种朝向、各种姿势的坐姿,能够坐舒畅的便是椅子,这便是一个使命。
椅子变成了一个使命的等价类,不论什么物体能够坐,坐得舒畅的便是椅子。这代表了一种幻想,我要幻想这把椅子怎样坐,这和深度学习不同:regression是核算,拿特征去拟合,simulation 是用我的身体去幻想,这是两者底子的差异。
第三个层次,什么是坐得舒畅?首要这个椅子要坐得稳,物理稳定是神经体系里十分灵敏的感知。
我做了一个简略的试验,把各式各样的椅子放在办公室和试验室里,看学生进来时先坐哪儿、后坐哪儿,这时人会有一个偏好。
别的一件咱们感同身受的事是,咱们能够感觉这个人是怎样用力,怎样受力的,这都能够映射,这是人类十分强的才干。映射过来之后,我就知道你怎样坐得舒畅,从中学到你的价值观。
了解这点之后,就不需求任何数据了。我知道椅子是为了让人坐得舒畅,从底子动身,我底子不需求数据。这便是我说的小数据、大使命。
以使命为中心的智能
以使命为中心的智能是咱们经过绵长的时刻之后才体会到的。
榜首层的表达是以图画为中心。咱们看到了一张图画,然后以图画为中心抽取各种特征,了解各个部件。第二层变成了以场景和物体为中心,即几许表达。
榜首层是深度学习,即把图画当作图画,没有几许、物理和功用的了解。第二层开端以三维的几许来表达场景,比方三维场景的桌子、椅子等。
最终,我以为真实的表达是以使命为中心的 task-centered representation,由于咱们先有使命,才有国际上各式各样的物体,这些物体都是被规划出来是为了满意人的需求和完结某种使命。以使命为中心的表达,比方功用、因果、价值观、物理、社会常识,咱们统称为physical and social common sense,这些常识是小孩在 18 个月之前获取的。
什么是以使命为中心的表达?咱们考虑国际不是从某个物体类别的视点动身。比方开酒瓶,并不是只要开瓶器能开酒瓶,任何东西都能开酒瓶,砸核桃也隐藏着一个物理原理。咱们知道物理原理之后,并不需求固定的东西开酒瓶,只要能完结开酒瓶使命都能够。我以为这种便是通用的人工智能。
这个问题怎样解?最近的研讨发现,人脑里大部分的常识表达并不是依照物理的类别来安排的,比方椅子是一类,桌子是一类,车子是一类,而是依照怎样运用它们来安排,大约能够分红两个标准:身体的标准和手的标准。
其实这一点不新鲜,由于咱们汉字中超越 1/3 的汉字都是与人有关的偏旁部首。咱们之所以创造汉字,是由于汉字里有一些使命,使命便是要把人放进去,一起来考虑,比方手、脚、耳朵、身体等。
仍是以砸核桃为例,乌鸦用车轮碾核桃,假如在一个新的环境中,东西被拿走,可是你仍是能完结砸核桃的使命,这是小学教育很重要的工作,便是教会你具有根本的常识。
砸核桃尽管只要一个比方,可是人要从上万个挑选中挑选一个计划,在这个进程中有许多的simulation。我看到了核桃和几种东西,大脑会快速地想怎样做,或许你的大脑呈现了上万种挑选敏捷。这是许多核算的进程,但不是深度学习的核算,而是一种 simulation 的核算。
还有时空因果的推理,现在这种状况要到达各式各样的方针,中心有各式各样的动作,然后构成一个因果方程,在物理上一致。
别的一点是 Causal Learning 和 Reinforcement Learing。RL现在也十分火,可是据神经科学研讨者称,RL 是老鼠这类的低等动物用的,要用许多的比方重复试验。而人运用的是因果学习,只需求有两三个比方。
砸核桃的使命转化到机器人不能仅仅简略的转化,有必要是一个物理因果的等价,要推理物理的功用。
这是一个从一两个比方中学习的进程。一个比较聪明的人能够从几个简略的挑选里就悟出坐椅子的价值观,从一个简略的砸核桃的动作悟出实质。一旦悟出来还要数据做什么呢?所以,这是一个中心问题。
以铲土为例,假如让你用东西铲土,你就会幻想怎样去铲。假如没有东西,用家里的东西相同你也能铲土。经过主动核算,机器的榜首个挑选是锅,第二个挑选是杯子。
当人类或猿人走过石器时代时,神经体系现已学习了东西和物理常识,他了解的是实质。
现在回到怎样界说使命?图画有多少个像素能够很清楚地界说,可是使命怎样界说呢?界说使命是以契合因果的办法,改动场景中的流态。“流态”是牛顿创造的一个词,包含时变的物理状况、心里状况、社会关系等,能够简略分类为物理流态和社会流态。
假如界说了这些原子的使命空间(atomic space),就能够组合发生复合的数学空间,这便是使命。这个工作说清楚,人工智能的问题就处理了一大半。
现在人工智能之所以遇到了很大的困难,是由于咱们说不清楚究竟要做什么使命。使命界说不清楚,是许多产品卖不出去,或许卖出去后被投诉的原因。比方扫地机器人产品界说不清楚应该吸和不应吸的东西有哪些,给机器的使命自身就没有明晰的界说。监控也相同,究竟什么人该抓,什么人不应抓,或许什么样的环境都无法精确界说。
前面谈到了一些根本的物理使命和常识,物理常识是现在人工智能面对的首要妨碍。比方自然言语了解,自然言语最多也是符号对符号,比方什么叫“玩水”,假如没有三维数据的体会,没有物理常识,其实很难搞懂这个词的意义,所以物理常识是要害。
我国有一则寓言故事“瞎子辨日”。一个从未见过太阳的瞎子,无法解说什么是太阳,这便是自然言语的为难。自然言语有必要和认知科学、核算机视觉、机器人联络在一起,不然无法研讨清楚,这是我的观念。
别的一种智能是社会的常识和使命。人类幼儿 12 个月之后开端指东西,他知道一个东西,但以为你不知道,所以他指给你看,这是一种十分强的智能。要完结这种智能,首要要有视角的转化,即推理别人所见所想,这是智能根本的东西。人类在对话时要有context,要知道上下文是什么,一起知道哪些东西。
一个人从第三视角看,是他真实看到的东西。然后咱们从第三人称想他看到了什么,这是核算机推理,适当于我大约知道你在看什么,你忽然问我问题时我就知道怎样答复。这其间还有咱们达到的一致,我知道你知道,你也知道我知道,这样才构成了一个一起的使命。
人的认知构架是什么?要构成对话,对话和言语是很重要的问题。每个客观的国际用一个圆圈表明,其间每一个点都代表一个状况。赤色是我脑中所想,蓝色是机器人看到的。
首要,机器人看到的是不完整、不确定的国际,人类看到的是同享的国际,由于看问题的视点相同。咱们相互从对方的视点看问题,两边相互了解对方看到的东西。有了一起的东西,才干树立模型。
决策函数,即我知道你在这种状况下应该怎样做,我应该怎样做。价值函数,即我大约知道你应该怎样做,以及我以为你会怎样做,以及你以为我怎样做,有一起的情境和常识,就会有一起的价值观。最终经过沟通的进程,咱们达到了一致。
Christopher Manning 讲到人和人之间的通讯只要 10 个 bit,很慢,跟 5G 比较差太远了,可是通讯很快,为什么?便是由于咱们有这些东西。
我总结一下 AI 的乌鸦形式。
用少数的比方,可是有功用、因果、价值观等今后,就能够举一反百,从初心动身来了解这个国际。我称之为智能暗物质。你看见了这把椅子,幻想身体怎样去坐,这叫做暗物质。其间95%都是认知推理,只要把这 95% 搞定了,才干去了解剩余的 5%,不然就只能穷举一切的状况。
这是一个简略的演示,机器人怎样与人类进行交互。机器人看到人进来了今后,它要了解人的目的,知道目的之后能够帮人翻开冰箱,知道要把食物放到冰箱里。在整个进程中不只要言语的沟通,还有动作、表情的沟通,使得两边能够达到一个一致,即猜想你的目的是什么,这是一个根本的办法。
这是咱们刚做出来的桌面机器人,它能够进行三维场景的重建。三维场景重建能够运用一些根本的核算机视觉办法。然后幻想在这个场景中人能够做什么,才干界说家具的用途。
这其间包含 top-down 的 inference,但永久无法辨认小物体,有必要要经过场景 context。这是一个十分丧命的问题,现在一切的深度学习都没有 top-down,只要 bottom-up。
这时咱们要做一个一致的体系,融通六大范畴,即核算机视觉、认知科学、言语对话、机器学习、机器人学习等,交融了才干有一个像样的核算机体系。
怎样构建“大使命”练习与测验渠道?
怎样构建大使命呢?我的方针是,在一个体系中练习出一只具有通用人工智能的“乌鸦”,这是一个中心问题。
当然,只在一个物理场景中练习是不行的。榜首步要根据人的需求,生成许多的数据库中的三维物体。这是生成的各种比方,生成今后能够在各种环境中测验。现在做的大数据拟合,咱们都能够测验,这是其间一种玩法。
我的玩法不同,智能体系来了今后,我用一个全新的体系给你看,看你能不能完结各式各样的使命,而不是事前规则的使命。
在这个体系里边有必要要做物理传神的东西,比方能够倒酒、倒水、挤牙膏、玩沙子、玩水,这是十分费力的,咱们现已做了好多年。
先界说根本的使命,人能够接进去,机器能够接进去,然后能够感同身受地一起完结使命。
咱们做了一个手套,它能够精细化地记载一些感知和运动行为。我进入了今后就知道有一些根本的操作,便是Learing from demonstration。
这是一个虚拟的机器人智能体,让它完结鲜榨果汁。比方说它要先找橘子,然后把橘子切了,再到榨果汁的当地去压,它要有练习的进程。比方煮饭、做面条,这都是十分大的使命。一般的日常日子中,你们瞧不起的东西越难。
人能够在里边与机器进行交互,也便是人机协作完结一件工作。
最终人也能够教机器人,比方说这个男的演示怎样砸核桃,这个动作背面其实有很大的工程量。
机器人会去想,怎样在一个新环境下完结砸核桃,整个推理的进程都能够在这个当地完结。
最重要的工作,我能够随时把机器叫停,然后问它,你现在知道什么,你知道我在干什么,或许叫它解说,计划做什么,为什么要做,这便是Explainable AI。
智能体的中心便是把自然言语对话、核算机视觉、机器人等结合在一起,就像教小孩相同,怎样样用小数据教会他。
总结
榜首,“大数据”对“大使命”两种范式之争,99%的人都是押注大数据,可是10年前我就押注大使命。
第二,我以为使命是智能中心。咱们有task-orientated操作体系、编程言语和体系结构。
第三,怎样构建大使命的渠道。我要能在里边练习出“乌鸦”,经过自主的使命去驱动它。这儿面有许多数学问题、理论问题和工程问题要处理,中美有必要协作来处理这个问题。