人工智能如同第四次工业革命,正从学术界的专属领域转变为能够改变世界的力量。尤其是以深度学习所取得的进步最为显著。
它让匍匐前进60年的人工智能一鸣惊人。
我们正在降落到一片新的大陆。深度学习所引发的这场重大技术革命,或许能够颠覆过去 20 年中互联网对于技术的认知,达成技术体验的跨越性发展。
那么,深度学习到底是什么?怎么理解它的重要性?
我们先从概念和现象入手。
我总结出一句话,从学术角度来看或许不够严谨,但从我的理解出发:深度学习是以多层神经网络为基础的,是以海量数据作为输入的一种规则自学习方法。
这里包含了几个关键词:
第一个关键词叫多层神经网络。
深度学习所基于的多层神经网络不是新鲜的事物,在 80 年代它甚至被认为没有前途。然而,近年来,科学家们持续对多层神经网络进行算法优化,从而使其取得了突破性的进展。
以往有很多算法呈现为线性。然而,这世界上大多数事情的特征具备复杂非线性的特点。例如在猫的图像里,包含了颜色这一信息,包含了形态这一信息,包含了五官这一信息,包含了光线这一信息等各种不同的信息。深度学习的关键就在于能够通过多层非线性映射,把这些因素成功地进行分离。
那为什么要深呢?多层神经网络比浅层的好处在哪儿呢?
简单来说,能够减少参数。原因是它会重复利用中间层的计算单元。以认猫为例,它能够学习猫的分层特征:最底层从原始像素开始进行学习,用于刻画局部的边缘和纹理;中层将各种边缘进行组合,以此来描述不同类型猫的器官;最高层则描述整个猫的全局特征。
它需要具备超强的计算能力,并且还会持续有海量数据输入。尤其是在信息表示以及特征设计这两个方面,过去主要依靠人工,这对有效性和通用性产生了严重的不良影响。深度学习完全改变了“人造特征”的模式,开启了数据驱动的“表示学习”模式,即通过数据自动提取特征,让计算机自己去发现规则,从而进行自我学习。
过去,人们利用经验是靠人类自身去完成的。而在深度学习中,经验是以数据的形式存在的。所以,深度学习就是关于在计算机上从数据中生成模型的算法,也就是深度学习算法。
问题是,几年前提及大数据以及各种算法时,它们和深度学习之间有什么差别呢?
过去的算法模式,在数学上被称作线性。x 与 y 之间的关系是相互对应的,它通过一种函数来体现映射关系。然而,这种算法在面对海量数据时遭遇了瓶颈。在国际上著名的图像分类大赛中,使用传统算法时,识别的错误率一直无法降低。而采用深度学习之后,错误率大幅下降。2010 年,获胜的系统仅能正确标记 72%的图片。到了 2012 年,多伦多大学利用深度学习的新技术,其带领的团队实现了 85%的准确率。在 2015 年的竞赛中,一个深度学习系统以 96%的准确率首次超过了人类,而人类平均准确率为 95%。
计算机具备认图的能力,并且这一能力已经超越了人类。尤其是在图像和语音等复杂应用方面,深度学习技术展现出了优越的性能。那么为什么会这样呢?其实原因就在于思路的革新。
举几个脑洞大开的例子。
(1)
先说计算机认猫。
我们通常可以用诸多属性来描述一个事物。这些属性里,有些是很关键且很有用的,而另外一些属性可能没什么用处。我们把这些属性称作特征。特征辨识,它是一个数据处理的过程。
传统算法认猫是通过标注各种特征来进行的。比如具有大眼睛,长有胡子,带有花纹等特征。然而,当这样去书写特征时,就会出现有的猫和老虎难以分辨,狗和猫也难以分辨的情况。这种方法被称作是由人制定规则,然后让机器去学习这些规则。
深度学习方法该如何处理呢?首先给你百万张图片,并告知这里有猫;接着再给你上百万张图,告知这里没有猫。之后对一个深度网络进行训练,让它通过深度学习自行去学习猫的特征,这样计算机就能分辨出谁是猫了。
(2)
第二个例子是谷歌训练机械手抓取。
传统方法是看到那里有个机械手,然后写好函数,将其移动到 xyz 标注的空间点,通过程序来实现一次抓取。
谷歌如今借助机器人来训练一个深度神经网络,此神经网络有助于机器人依据摄像头的输入以及电机命令,去预测抓取的结果。简而言之,就是对机器人的手眼协调进行训练。机器人会对自身的机械臂进行观测,并且会实时对抓取运动进行纠正。
所有行为都从学习中自然浮现,而不是依靠传统的系统程序。
谷歌为加快学习进程,使用了 14 个机械手同时工作。经过将近 3000 小时的训练,相当于 80 万次抓取尝试后,开始看到智能反应行为的出现。据公开资料显示,未经过训练的机械手,前 30 次抓取的失败率为 34%,而经过训练后,失败率降低到了 18%。
这就是一个自我学习的过程。
(3)
有人问了,深度学习,能学习写文章吗?
来看这个例子。斯坦福大学的计算机博士曾利用托尔斯泰的小说《战争与和平》对神经网络进行训练。每经过 100 个回合的训练,就让它写文章。100 个回合之后,机器懂得要空格,然而仍然存在乱码。500 个回合过后,能够正确拼写一些较短的单词。1200 个回合之后,出现了标点符号并且能拼写长单词。2000 个回合之后,已经可以正确拼写更为复杂的语句。
整个演化过程是个什么情况呢?
以前写文章时,只需告知主谓宾。在上述过程中,完全没有任何人告知机器语法规则。甚至都无需告诉它标点和字母的区别。没有向机器告知任何程序。只是持续对原始数据进行训练,一层一层地训练,最终输出结果,也就是一个个能够被理解的语句。
一切显得很有趣。人工智能以及深度学习所具有的美妙之处,正体现在这里。
(4)
我去看过一家位于硅谷的公司。这家公司完全颠覆了以往的算法,它是利用深度学习来实现图像深度信息的采集的。
众所周知,市面上已有能实现人跟踪的无人机。那么它的方法是怎样的呢?在图像系统中,一个人呈现为一堆色块的组合。可以通过人工方式进行特征选择,像颜色特征、梯度特征等。以简单的颜色特征为例:若你穿着绿色衣服突然走进草丛,就可能会跟丢;或者他脱了一件衣服,使得几个人很相近,也容易导致跟丢。
此时,若要在这个基础上继续进行优化,把颜色特征做出一些调整,这是极为困难的。并且在调整之后,还会出现对过去的某些状况不再适用的情况。
总之,这样的算法需要不停迭代,迭代又会影响前面的效果。
这个硅谷团队运用深度学习技术,将所有人的脑袋进行模拟构建,仅仅区分出前景和背景。在区分完成后,把背景全部通过数学方式进行随意填充,接着持续生产大量的背景数据,以此进行自学习。重点在于把前景学习出来就可以了。
我知道很多传统方法仍在使用双目视觉。通过计算机进行局部匹配,接着依据双目测出的两个匹配之间的差距,来推算空间中另一个点与其的三角位置,以此判断距离有多远。
深度学习的出现,这是可以想象得到的。它使得很多公司之前辛苦积累的软件算法直接失去了作用,就那样作废了。
“算法为核心竞争力”,正在转变为,“数据为核心竞争力”。
技术人员必须进入新的起跑线。
(5)
最后再举个例子。
很多人都有过做胃镜的经历。尤其是当出现胃痛症状的时候,那种感觉非常痛苦。肠胃镜需要分开进行检查,并且在做肠胃镜检查时,小肠是无法直接看到的。
有一家公司推出了一种胶囊摄像头。这种胶囊摄像头被吃进去后,能在人的消化道内,每 5 秒拍摄一幅图,并且可以连续摄像。之后,胶囊会被排出体外。它能够将所有关于肠道和胃部的问题全部完整地记录下来。然而,医生仅仅把那些图看完,就需要花费五个小时。原本的机器在主动检测时,漏检率比较高,所以需要医生进行复查。
后来,他们运用了深度学习这种方法。他们采集了 8000 多例图片数据并将其输入进去,让机器持续学习。这样做不仅提升了诊断的精确率,还减少了医生的漏诊情况,同时也降低了对稀缺好医生经验的依赖。仅仅需要依靠机器自身去学习相关规则。
深度学习算法,可以帮助医生作出决策。
了解完深度学习之后,接着开始思考一个问题。在 20 世纪 70 年代末 80 年代初,个人电脑迅猛发展的时候,人工智能的商业化却进展艰难。乔布斯曾经对个人计算机的价值作出这样的定义,即“它是我们思维的自行车”。那么,如今的人工智能又是怎样的呢?深度学习又带来了什么呢?它究竟给我们带来了哪些真正的东西呢?未来,它会对行业和社会产生怎样的影响呢?中国公司的机会又在何处呢?
版权声明:本文为 “博览广文网” 原创文章,转载请附上原文出处链接及本声明;
工作时间:8:00-18:00
客服电话
0755-88186625
电子邮件
admin@lanyu.com
扫码二维码
获取最新动态