网易科技讯6月28日消息,由网易科技和网易新闻联合主办的“第三届网易未来科技峰会”今天在北京国贸大酒店顺利召开。科大讯飞轮值总裁胡郁在现场发表了演讲,他表示:人工智能要经历三个发展阶段——运算智能、感知智能和认知智能,语音和语言技术方面的突破将加速认知革命和人工智能的实现。
胡郁介绍,人工智能有两种不同形式的实现路径。其中,类脑计算是通向“强人工智能”之路,在脑科学基础研究重大投入,并与信息科学形成紧密融合;大数据人工智能可以充分利用机器学习和大数据方向的最新进展,在近期取得阶段性突破,并利用脑科学进展 。
深度神经网络与大数据的结合成为当前主流路径 ,基于互联网和移动互联网的“研究—工程—产品—用户”闭环优化加速了迭代优化进程 。
科大讯飞从2010年开展dnn语音识别研究 ,2011年上线首个中文语音识别dnn系统,2013年语种识别首创bn-ivec技术 ,2016年将attentional神经网络应用于认知智能 。
胡郁称,认知智能研究的核心问题包括语言理解、知识表示、联想推理、自主学习等,在这些方面的研究投入将推动人工智能时代的到来。(阿伦)
- |
- 查看图集 |
以下是演讲全文
主持人艾诚:感谢汪建董事长。
相比各位一定还沉浸在汪董事长从华大基因出发引发的对现在这一轮科技影响我们生活生产的特别不一样的思考方向,那句话我还依稀记得,“华大的基因里面,只有造福,没有改变。”也许对于当下这种甚嚣尘上的关于人工智能会超越人类、人工智能会改变世界,甚至人工智能会成为一个新的物种取代人类的这种言论,多了一种思考的角度,我们也今天论坛上大家集思广益,百家争鸣。
接下来我们要请上的这位嘉宾,他也许也会带来不一样的态度,从我们今天入场看到的机器人,包括正在达沃斯现场来自美国、日本、韩国的各个机器人,我自己体验了一次,还碰到了一个长得特别像我的叫“佳佳”的机器人,后来我特别好奇,发现和她像孪生姐妹,我带着这个问题问了我碰到的很多机器人专家,我问现在看到的机器人距离所谓高级人工智能到底有多远,专家说至少分为三个等级:一是弱智能,我们看到有做餐饮服务的、有做保姆的、有飞行器的;第二个跟人类有点接近,最典型的案例是对人类产生震撼的alphago和李世石的围棋大战,让我们发现机器跟人类如此接近,甚至会超越人类;第三是超越智能,现有机器人的水平大部分处于弱智能的状态,在这个技术当下,语音智能是目前较为成熟的领域,在语音智能方面的佼佼者当属科大讯飞,所以我们也非常荣幸地请到了科大讯飞的轮值总裁胡郁老师跟我们分享一下他心目中的原力和感知,到底人工智能和人类的界限在哪里。
掌声有请胡总。
胡郁:首先非常高兴有机会在这里跟大家进行交流和讨论,刚才汪建老师说,将来的世界是一个生命科技的时代,我非常同意这一点,将来人类的命运掌握在我们自己手里,我们可以改造自己,但是我们人类也想扮演上帝的角色。
大家都知道人类能够在地球上统治整个世界,是因为我们有智能,现在不仅仅自己有智能,还希望能够创造出新的智能,在当前世界,各种各样的智能层出不穷,甚至有段时间“智能”一词都被用滥了,到底智能应该向什么方向发展,智能到底应该给我们带来什么?今天我们带着这个疑问想跟大家探讨一下。
大家都知道3月份时有个非常著名的alphago大战李世石,在此之前很多人都给出了预测,包括我自己在内,我当时的预测是机器人一定能够战胜人类。为什么呢?其实在研究界有句很有名的话,机器人在智能方面战胜人类一定用它最擅长的方式,而不是用人类思维的方式。我们原来在讨论时总想着下围棋是一个非常高尚的运动,并不是每个人都能把围棋下得很好,但其实机器根本不是这么想的,在下完这个比赛时,凤凰卫视《一虎一席谈》请我和古力九段和柯洁九段去讨论alphago和李世石对打的情况,记得当时柯洁九段在李世石和alphago对弈时下一步我才能证明alphago。当时我看到柯洁九段在“一虎一席谈”上,他就比较谦虚了,他说这个东西还是要好好准备。
为什么这么说呢?我们来看一下,alphago为什么能够战胜人类,因为它用的确实不是人类所擅长的方法,而是机器所擅长的方法,alphago能够同时计算每部棋下几十步甚至上百步的可能性,而且alphago能够记住三千万种法的对弈,而这是我们人类所不擅长的。
反过来人工智能是不是能够在所有方面超越人类呢?我觉得这也不一定,因为我们看到围棋是一个完全信息透明情况下的公开博弈,就像以前的国际象棋,机器是占有很大优势的。
很多人会问,人工智能到底体现在什么方面呢?我们知道人类有农业革命、工业革命,还有现在讲的信息革命,但可能很多人不知道的是,人类在统治地球的过程中其实经过了漫长的历史发展,有一本书《人类简史》,以色列一个年轻的历史学家写的,他在这本书里写到,其实人类在地球上已经出现两百万到三百万年了,但这些人类在全球各地,就是我们讲的猿人、欧洲的原始人,中国的山顶洞人、元谋人和蓝因人,但经过历史学家和基因工作者的研究大家多知道,七万年前,我们的祖先叫智人,从非洲走出来,走到世界各地,把其他猿人都给灭种了,现在不管是黑人白人还是棕色人种、黄种人,都是智人的后代。
在这个过程中,好像他们突然开窍了一样,人的智能在经过两三百万年的发展中突然迈上一大步,是什么让他们走到这一点?历史学家把他们叫做“认知的革命”,因为他们发现这些人跟其他猿人最大的不同是在他们的语言得到了极大的丰富,大家知道先有对话才产生文字,产生文字后有几个好处:
第一个好处,它可以更好地描述周围的自然世界,比如河边有只狮子,他们知道狮子长多大,身上有没有病,处于什么样的状态,更重要的是因为有了语言、有了语音,我们可以描述团队和团队之间的关系,如果没有语言,现在动物群种里面的黑猩猩,一个团队最大不能超过50头,超过50头就无法管理。但智人因为有了语言,因为他们之间可以八卦,张家长李家短,他们可以组织上千人的团队做这件事情。更重要的是,因为有了语言以后我们可以描述我们共同想像的内容,一些虚构的概念,“公司”、“梦想”都是从此得来。所以我们可以看到,现在历史学家一个非常重要的认为就是人类的认知革命将人类的智能带到一个新的高度。
回顾一下我们可以看到,从刚才讲的机器所擅长的运算智能,算棋谱时机器比我们强很多,但如果讲到感知智能,就是我们看到世界、听到周围世界的能力,机器也在快速赶上来,但在认知方面,让我们能够有语言、有语音,能够积累知识、能够进行判断这方面,机器其实比我们差得很远。
这也是科大讯飞现在以语音和语言为入口的计算机的认知革命,我们所执行的讯飞超脑计划想要做的事情,就是把机器的感知智能和认知智能通过传感器和算法感知世界,并且能够对自然的人类世界进行认知,作为我们人工智能一个非常重要的突破点。
怎样实现这种突破,其实我们有两种不同的途径,一种和我们的脑科学非常有关,我们可以对大脑所有的神经元构造和它的工作机理进行分析,然后我们甚至可以根据大脑的整个工作机理重构出来真正和大脑相同的机制,这是一条思路,但这条思路时间比较长,现在包括一些发达国家也在投入这方面的研究,另外一条思路就是用互联网的思维,利用我们机器学习算法和大数据在尽可能快的过程中,就像alphago一样,它其实就是利用了这种方法,不完全能模仿大脑,但利用机器运算的方法能够模拟我们的感知和认知。今天我讲的主要是后面的具体方式。
从人脑中获取智能最关键的一点是,就像我们都知道我们人类现在会飞翔,但我们并没有造一个鸟出来,我们是知道了鸟在飞行中的空气动力学,我们研究大脑,其实并不是把大脑完成复制,而是希望找到大脑中的智力动力学,进一步优化我们整个学习的算法。
从另一个角度,如果用互联网思维来解决、改进我们的人工智能,要感谢三个方面的进展:一是人工神经网络,这个人工神经网络就像我刚刚说的,只是学到了大脑一些简单的机理,没有大脑那么复杂,但已经可以很好地工作了;另外拜互联网和移动互联网所赐,我们可以得到大量大数据;更重要的是我们有千千万万的,就像网易、讯飞,有千千万万的算法,有直达用户的产品,这些产品把用户的使用习惯源源不断传入后台,我们可以利用网络的效应不断地优化它。正是因为有这三者的支撑,其实我们得到了非常好的结果。
真正人工智能的框架应该是什么样的呢?再给大家举个例子,人类大脑皮层在工作过程中分为两个层面:一个叫感知层面,就是我们讲的视觉、听觉和触觉,还有一个层面是认知层面,当我们看到一只猫,听到猫的叫声,或者是摸猫的皮毛,人脑里有一个概念,这些概念形成了我们语言中的单词和词汇,就是“猫”这个概念,它们汇聚到我们讲的语言和理解的大脑的认知皮层层面,所以在讯飞超脑里分两个层面:感知智能是对我们听到的、看到的、触觉到的东西进行识别,同时把识别结果上升到我们认知智能的层面,形成一个概念空间的表示和推理,在过去五年中我们相继把深度学习网络应用在刚才我们讲的感知和认知,包括视觉、包括听觉,包括自然语言,包括翻译的各个方面。
这中间我讲一些我们最新的研究成果,请工作人员播放一下第一句,再播放一下第二句。
这是一段语音片断,大家听到第一个好像是“休息”,第二个好像是“休息室”。但当听完完整片断时你会知道,原来是“《西游记》之大闹天宫”,人脑是怎么工作的呢?人脑能够记下短时或中间的或长时的记忆,通过这种记忆,我们可以看到我们现在的神经网络其实是可以很好地模拟这个过程的,我们通过一种递归的方法,就可以让我们的神经网络能够模拟我们在大脑方面的感觉,这是现在最新型的递归神经网络用于语音识别的过程,这个过程非常复杂,我就不一一介绍了。
但光有递归还不够,光能够存储记忆还不够,现在最新的一个方式是用我们讲的图像的方法识别语音,这是当前最新的技术,怎么说图像方法呢?大家可以看到,上面这个语音是我们平常在录音波形里看到的波形,但当语音进入我们的耳朵时,我们耳朵里的纤毛会根据它的长度不同与语音中不同的频率进行共振,如果把共振的频率分析出来,我们可以得到下面的语谱图,这是一张图形,可能会受到干扰和噪音、口音的干扰,但因为这个图形里的信息很丰富,所以大家可以看到,在mit专门有科学家可以根据这些图形就能够跟你说这句话里用的是什么样的文字。其实我们的识别系统如果能够读这些图,大家能看到,这两个图形基本是一致的,这样整个性能的稳定性就会有很大提高。
其实我们知道,如果你是一个盲人,你的耳朵就会特别灵,因为它借用了我们在视神经方面的一些神经系统和细胞,这样可以把它的一些能力借用过来,我们应用一个新型的卷积神经网络,它原来是专门用来做图像的,来处理我们的语音图像,我们得到了一些非常令人惊讶的结果,这几个都是才能深度神经网络,语音识别当前最好的结果,我们可以看到,即使是跟最新的递归神经网络相比,用卷积神经网络,也就是用识别图像的方法,我们仍然能取得一个48%的提高。
所以可以说,现在我们的语音不仅可以听到,而且可以看到。因为这样的结果,我们大家会越来越多地看到,在我们各种各样的输入法里,在我们的语音搜索里,还有在我们各种各样的语音交互式系统里,语音识别的错误率正在以每年30%的水平下降,我相信再过四到五年的时间,我们最后的语音识别系统就能跟人整个的感觉完全一样了。
刚才说了,在感知方面,我们语音识别技术不断取得提升,但是在认知方面,它有几个非常核心的任务,讯飞超脑关于语言理解及深层、知识表述及推理,还有自主学习,要实现这些技术必须要有两个层面的东西:第一是要解决自然语言描述的问题,在此基础上我们要解决语言理解及深层,还有我们讲的知识表述及推理各个方面。下面我们一一看一下。
刚才我们提到了大脑在大脑皮层中关于概念的表示,它是一张图,不同的词语它们之间概念是酉空间的,我给大家举个例子,比如“大家好”,传统的表达,每个词就代表了一个空间,我们把每个词的出现看成“1”,不出现的地方看成“0”,这是传统表现词语的一种方法,词语和词语之间,要不就是距离相同,要不就是不同。
现在我们采用一种连续的空间来表现词语,每个字、每个词都可以用“词语卷积”的方法,用一段连续的数字,相当于一个空间里的坐标系,这样每两个单词之间的距离就可以把它计算出来。我们把所有词聚了一下类就可以看到这么一个结果,比如我们可以看到新浪、网易、腾讯,这些东西是连在一起的;我们可以看到吕布、张飞、关羽、诸葛亮,他们是比较接近的。其实告诉大家,在我们的大脑皮层中通过医学的方法,如果你来测量,比如我播放一个词语,我的大脑里会出现放电,我们发现相关词语在大脑皮层中存储的位置也是非常接近的。
利用这种方法,其实我们就建立了一种表现词语的空间概念的表达体系,在这样的表达体系之下,我们可以进一步地去分析词语层面、句子层面和篇章层面,他们在各个层面上的连接和计算的距离。
有了这个以后,我们来看一些实际的作用,他们能做什么样的事情呢?首先我们看一下语言的理解及深层。
首先来看翻译,在翻译方面,我们知道他们要进行语句的练习,因为不同语言是不一样的,这时候用到人脑中一个非常重要的概念,关注度模型,比如我们人在看一幅图像,海边有一个灯塔,我们看的时候注意力是集中在灯塔上而不是其它方面;右边这张图比较有意思,上面这张图是一个男司机在开车时观察各种各样的东西,下面这张图是一个女司机,她的思路就比较狭窄,所以我们经常看到女司机杀手可能就是这么来的,因为她的注意力只能集中在有限的方面。
如果我们来看一段文字,这两天正好欧洲杯,我们的注意力其实也是集中在那些文字中比较有信息量的地方,这种关注度模型,其实它的方法是能够把我们最关注的那些输入量自动寻找出来,与我们最终的结果进行对应。我们来看一下基于机器翻译的实际例子:
大家都知道,不同的语言之间,他们的机器翻译,比如有很多谓语、主语、宾语,它们的位置是不同的,会进行倒装,顺序也会发生很多变化,原来用规则的方法来描述这些变化非常复杂,通过我们现在讲的这个神经网络,大家可以看到下面,输入“我是谁”,“谁”和“我”,它们的位置是有差异的,但利用attention这个神经网络,它们可以自动找到对应关系。采用全新的神经网络的翻译系统,相比传统系统,提高会非常多。
再看下一个具体的例子,我们都知道最近科大讯飞在教育方面做了非常多的工作,我们希望能够利用机器人帮助我们的老师进行卷面批改,比如我们写了一个作文,这篇作文,我们希望机器人也能给它打出分数并给出它的评语。
大家看这个样例,右边94分是这篇文章的得分,右边有评语,而且从这篇文章中可以看到它用到了排比,用到了一些语句的引用,我们如何来做,让机器也能看懂这些东西?机器的关注度如何自动落在这些关键的地方呢?其实很简单,右边是一个范文,刚才我们讲了,用连续空间把它表示出来,这些范文和作文之间的向量,利用我们的关注度模型,会自动找到之间比较对接的地方,它找到这些对接之后,就会深层,我们刚才讲了,分数和最后主题评阅评分的结果。通过这种机器自动的方法,它找到了这中间有相关的地方,应该讲,现在我们这方面的结果在中考和高考的作文评卷,不管是中文还是英文,都取得了很好的效果,比普通老师改得还要准确,当然这是大规模的结果。
最后我们来看一个阅读理解题,大家看到了,这其实是一个答题系统,我们看一段话,“月牙的影子在水中晃动”,原来有个题目叫“小鸭子看见了,以为是条鱼,赶紧游过去”,这是阅读理解,现在题目是我把“小鸭子”抠掉,让机器看完这段话以后自动在上面填出来这地方应该填什么,利用我们现在的系统,我们会把篇章和问题进行attention的规划,“小鸭子”也在其它地方也出现过,它可以计算出每个地方热力度(关注度)的情况,后来我们发现“小鸭子”的关注度最高,这样我们就可以把“小鸭子”填在这个地方,而且是填对的。
现在它在阅读理解方面能达到6岁儿童的水平,大家不要小看6岁儿童,6岁儿童在常识的理解达到了一个水平,而在6岁以后主要是学各种各样的知识,这就跟我们认知到的,2岁、3岁、4岁形成个人最重要的学习能力,这方面是最一致的。相信随着6岁儿童常识的学习能力达到以后,我们再给他灌输小学、初中、高中的知识以后,他最后就能考上大学。
所以我们可以看到,随着技术的发展,最后我们来看一段奥巴马是怎么评价讯飞超脑取得成果的短片。
看来奥巴马同志还挺认可的,当然,这是利用我们最新的语音模仿技术给他模仿的一段。
非常感谢大家的聆听,谢谢。
《2016未来科技峰会专题》
6月28日,第三届“网易未来科技峰会”将在北京国贸大酒店举行。
本次峰会主题为“原力.感知”(force·sense),探寻商业发展和技术发展的内在原动力,感知vr、ar、人工智能和智能出行等领域的未来。
本次峰会将邀请国内外最具有未来感和前瞻性的企业家、科学家、科幻作家、创业者、投资人、跨界明星、文化名人一起,大脑激荡,探寻通往未来的神秘力量,体验感知力的能量场。