深度学习：人工智能的革命性力量与多层神经网络的未来

2025年03月26日阅读 32

摘要：人工智能如同第四次工业革命，正从学术界的专属领域转变为能够改变世界的力量。尤其是以深度学习所取得的进步最为显著。它让匍匐前进60年的人工智能一鸣惊人。我们正在降落到一片新的大陆。深度学习所引发的这场重大技术革命，或许能够颠覆过去20年中互联网对于技术的...

人工智能如同第四次工业革命，正从学术界的专属领域转变为能够改变世界的力量。尤其是以深度学习所取得的进步最为显著。

它让匍匐前进60年的人工智能一鸣惊人。

我们正在降落到一片新的大陆。深度学习所引发的这场重大技术革命，或许能够颠覆过去 20 年中互联网对于技术的认知，达成技术体验的跨越性发展。

那么，深度学习到底是什么？怎么理解它的重要性？

我们先从概念和现象入手。

我总结出一句话，从学术角度来看或许不够严谨，但从我的理解出发：深度学习是以多层神经网络为基础的，是以海量数据作为输入的一种规则自学习方法。

这里包含了几个关键词：

第一个关键词叫多层神经网络。

深度学习所基于的多层神经网络不是新鲜的事物，在 80 年代它甚至被认为没有前途。然而，近年来，科学家们持续对多层神经网络进行算法优化，从而使其取得了突破性的进展。

以往有很多算法呈现为线性。然而，这世界上大多数事情的特征具备复杂非线性的特点。例如在猫的图像里，包含了颜色这一信息，包含了形态这一信息，包含了五官这一信息，包含了光线这一信息等各种不同的信息。深度学习的关键就在于能够通过多层非线性映射，把这些因素成功地进行分离。

那为什么要深呢？多层神经网络比浅层的好处在哪儿呢？

简单来说，能够减少参数。原因是它会重复利用中间层的计算单元。以认猫为例，它能够学习猫的分层特征：最底层从原始像素开始进行学习，用于刻画局部的边缘和纹理；中层将各种边缘进行组合，以此来描述不同类型猫的器官；最高层则描述整个猫的全局特征。

它需要具备超强的计算能力，并且还会持续有海量数据输入。尤其是在信息表示以及特征设计这两个方面，过去主要依靠人工，这对有效性和通用性产生了严重的不良影响。深度学习完全改变了“人造特征”的模式，开启了数据驱动的“表示学习”模式，即通过数据自动提取特征，让计算机自己去发现规则，从而进行自我学习。

过去，人们利用经验是靠人类自身去完成的。而在深度学习中，经验是以数据的形式存在的。所以，深度学习就是关于在计算机上从数据中生成模型的算法，也就是深度学习算法。

问题是，几年前提及大数据以及各种算法时，它们和深度学习之间有什么差别呢？

过去的算法模式，在数学上被称作线性。x 与 y 之间的关系是相互对应的，它通过一种函数来体现映射关系。然而，这种算法在面对海量数据时遭遇了瓶颈。在国际上著名的图像分类大赛中，使用传统算法时，识别的错误率一直无法降低。而采用深度学习之后，错误率大幅下降。2010 年，获胜的系统仅能正确标记 72%的图片。到了 2012 年，多伦多大学利用深度学习的新技术，其带领的团队实现了 85%的准确率。在 2015 年的竞赛中，一个深度学习系统以 96%的准确率首次超过了人类，而人类平均准确率为 95%。

计算机具备认图的能力，并且这一能力已经超越了人类。尤其是在图像和语音等复杂应用方面，深度学习技术展现出了优越的性能。那么为什么会这样呢？其实原因就在于思路的革新。

举几个脑洞大开的例子。

（1）

先说计算机认猫。

深度学习是什么_深度学习是什么_深度学习是什么

我们通常可以用诸多属性来描述一个事物。这些属性里，有些是很关键且很有用的，而另外一些属性可能没什么用处。我们把这些属性称作特征。特征辨识，它是一个数据处理的过程。

传统算法认猫是通过标注各种特征来进行的。比如具有大眼睛，长有胡子，带有花纹等特征。然而，当这样去书写特征时，就会出现有的猫和老虎难以分辨，狗和猫也难以分辨的情况。这种方法被称作是由人制定规则，然后让机器去学习这些规则。

深度学习方法该如何处理呢？首先给你百万张图片，并告知这里有猫；接着再给你上百万张图，告知这里没有猫。之后对一个深度网络进行训练，让它通过深度学习自行去学习猫的特征，这样计算机就能分辨出谁是猫了。

（2）

第二个例子是谷歌训练机械手抓取。

传统方法是看到那里有个机械手，然后写好函数，将其移动到 xyz 标注的空间点，通过程序来实现一次抓取。

谷歌如今借助机器人来训练一个深度神经网络，此神经网络有助于机器人依据摄像头的输入以及电机命令，去预测抓取的结果。简而言之，就是对机器人的手眼协调进行训练。机器人会对自身的机械臂进行观测，并且会实时对抓取运动进行纠正。

所有行为都从学习中自然浮现，而不是依靠传统的系统程序。

谷歌为加快学习进程，使用了 14 个机械手同时工作。经过将近 3000 小时的训练，相当于 80 万次抓取尝试后，开始看到智能反应行为的出现。据公开资料显示，未经过训练的机械手，前 30 次抓取的失败率为 34%，而经过训练后，失败率降低到了 18%。

这就是一个自我学习的过程。

（3）

有人问了，深度学习，能学习写文章吗？

来看这个例子。斯坦福大学的计算机博士曾利用托尔斯泰的小说《战争与和平》对神经网络进行训练。每经过 100 个回合的训练，就让它写文章。100 个回合之后，机器懂得要空格，然而仍然存在乱码。500 个回合过后，能够正确拼写一些较短的单词。1200 个回合之后，出现了标点符号并且能拼写长单词。2000 个回合之后，已经可以正确拼写更为复杂的语句。

整个演化过程是个什么情况呢？

以前写文章时，只需告知主谓宾。在上述过程中，完全没有任何人告知机器语法规则。甚至都无需告诉它标点和字母的区别。没有向机器告知任何程序。只是持续对原始数据进行训练，一层一层地训练，最终输出结果，也就是一个个能够被理解的语句。

一切显得很有趣。人工智能以及深度学习所具有的美妙之处，正体现在这里。

（4）

深度学习是什么_深度学习是什么_深度学习是什么

我去看过一家位于硅谷的公司。这家公司完全颠覆了以往的算法，它是利用深度学习来实现图像深度信息的采集的。

众所周知，市面上已有能实现人跟踪的无人机。那么它的方法是怎样的呢？在图像系统中，一个人呈现为一堆色块的组合。可以通过人工方式进行特征选择，像颜色特征、梯度特征等。以简单的颜色特征为例：若你穿着绿色衣服突然走进草丛，就可能会跟丢；或者他脱了一件衣服，使得几个人很相近，也容易导致跟丢。

此时，若要在这个基础上继续进行优化，把颜色特征做出一些调整，这是极为困难的。并且在调整之后，还会出现对过去的某些状况不再适用的情况。

总之，这样的算法需要不停迭代，迭代又会影响前面的效果。

这个硅谷团队运用深度学习技术，将所有人的脑袋进行模拟构建，仅仅区分出前景和背景。在区分完成后，把背景全部通过数学方式进行随意填充，接着持续生产大量的背景数据，以此进行自学习。重点在于把前景学习出来就可以了。

我知道很多传统方法仍在使用双目视觉。通过计算机进行局部匹配，接着依据双目测出的两个匹配之间的差距，来推算空间中另一个点与其的三角位置，以此判断距离有多远。

深度学习的出现，这是可以想象得到的。它使得很多公司之前辛苦积累的软件算法直接失去了作用，就那样作废了。

“算法为核心竞争力”，正在转变为，“数据为核心竞争力”。

技术人员必须进入新的起跑线。

（5）

最后再举个例子。

很多人都有过做胃镜的经历。尤其是当出现胃痛症状的时候，那种感觉非常痛苦。肠胃镜需要分开进行检查，并且在做肠胃镜检查时，小肠是无法直接看到的。

有一家公司推出了一种胶囊摄像头。这种胶囊摄像头被吃进去后，能在人的消化道内，每 5 秒拍摄一幅图，并且可以连续摄像。之后，胶囊会被排出体外。它能够将所有关于肠道和胃部的问题全部完整地记录下来。然而，医生仅仅把那些图看完，就需要花费五个小时。原本的机器在主动检测时，漏检率比较高，所以需要医生进行复查。

后来，他们运用了深度学习这种方法。他们采集了 8000 多例图片数据并将其输入进去，让机器持续学习。这样做不仅提升了诊断的精确率，还减少了医生的漏诊情况，同时也降低了对稀缺好医生经验的依赖。仅仅需要依靠机器自身去学习相关规则。

深度学习算法，可以帮助医生作出决策。

了解完深度学习之后，接着开始思考一个问题。在 20 世纪 70 年代末 80 年代初，个人电脑迅猛发展的时候，人工智能的商业化却进展艰难。乔布斯曾经对个人计算机的价值作出这样的定义，即“它是我们思维的自行车”。那么，如今的人工智能又是怎样的呢？深度学习又带来了什么呢？它究竟给我们带来了哪些真正的东西呢？未来，它会对行业和社会产生怎样的影响呢？中国公司的机会又在何处呢？

原文链接：http://wen.bjhwtx.com/post/13020.html