什么是机器学习?
机器学习有多种定义,到目前为止尚未有公认的定义。若想了解更多,可参考知乎的解答,其中既有客观的回答,也有深刻的幽默。
我从定义的角度让大家浅显地了解什么是机器学习。机器学习有许多定义,例如:
“机器从原始的数据中提取模式的能力”(lan )
在不直接对问题进行编程的情形下,存在一个研究领域,这个领域能够赋予计算机学习能力。
机器学习这门学科关注的问题是:计算机程序怎样能够随着经验的积累而自动提升性能。
如果一个计算机程序在某类任务 T 上,其以性能度量 P 衡量的性能能够随着经验 E 而自我提升和完善,那么我们就说这个计算机程序在从经验 E 进行学习。
比如在猪的识别方面,我们并非直接编程让机器知晓猪是陆地行走、四个蹄子、肥头大耳的动物,而是间接地告知机器哪些是猪哪些不是。随着经验的不断积累,计算机得以自我完善,进而能够区分是猪还是不是猪。
我的举例仅仅是有监督的一个示例。同时,还有半监督、弱监督以及无监督学习等诸多类型,它们都属于机器学习的范畴。
监督学习是什么?无监督学习是什么?强化学习是什么?弱监督学习是什么?半监督学习是什么?多示例学习是什么?
随着机器学习问题逐渐被人们熟知,人们把现实中遇到的不同问题划分成不同的学习方式。其中,最为基础的有监督学习、无监督学习和强化学习。
监督学习:有已知的数据以及与这些数据一一对应的标签,通过训练一个智能算法,把输入的数据映射到相应标签的过程。监督学习是较为常见的学习问题之一,也就是人们常说的分类问题。例如,已知某些图片是猪,而某些图片不是猪,这时训练一个算法,当有新的图片输入该算法时,算法能够告诉我们这张图片是不是猪。
无监督学习:已知数据未带有任何标签,依据一定的倾向,对一个智能算法进行训练,使所有数据能映射到多个具有不同标签的过程。与有监督学习相比,无监督学习属于一类较为困难的问题。这里所谓的按照一定的倾向,例如特征空间距离较近等,这些是人们认为属于同一类的事物应具备的一些特性。举个例子,猪和鸵鸟混在一起。算法会进行高度测量,接着发现动物们主要集中在两个高度区间。一类动物身高约为一米,另一类动物身高约为半米。那么,依据就近原则,75 厘米以上的属于高的那类,也就是鸵鸟;75 厘米以下的属于矮的那类,也就是猪。当然,这里也会有身材矮小的鸵鸟和身高极高的猪被错误分类的情况。
强化学习:智能算法在无人为指导的情形下,凭借持续的试错以提升任务性能的这一过程。“试错”意味着存在一个衡量标准。以棋类游戏为例,我们不清楚棋手下一步棋的对错,也不了解哪步棋是制胜的关键。然而,我们却知道最终的结果是输还是赢。如果算法按照某种方式走最后的结果是胜利,那么算法就会学习并记忆;如果按照那样走最后输了,那么算法就会学习以后不再这样走。
弱监督学习:已知有数据以及与这些数据一一对应的弱标签,通过训练一个智能算法,把输入的数据映射到一组更强的标签的过程。标签的强弱指的是其蕴含信息量的多少。例如,相较于分割的标签,分类的标签属于弱标签。如果我们知晓一幅图,告知图上有一只猪,接着让你找出猪的位置以及猪与背景的分界,这便是一个已知弱标签而去学习强标签的弱监督学习问题。
半监督学习:一部分数据的标签已知,另一部分数据的标签未知。利用已知标签的数据和部分数据一一对应的关系,训练一个智能算法,让这个算法学习已知标签和未知标签的数据,最终实现将输入数据映射到标签的过程。半监督通常情况下数据的标注较为困难,像医院的检查结果,医生需要花费一定时间来判断其健康与否。可能只有少数几组数据明确知道是健康还是非健康,而其他数据仅只有数据本身,并不知晓其是否健康。在此情形下,通过将有监督学习与无监督学习相结合的半监督学习便发挥了作用。
多示例学习:已知有包含多个数据的数据包以及这些数据包的标签,需要训练智能算法,把数据包映射到标签。在某些问题中,还会同时给出包内每个数据的标签。多事例学习引入了数据包的概念。例如,一段视频由很多张图构成,倘若有 1000 张。要判断视频里是否有猪出现,若一张一张地标注每一帧是否有猪,会非常耗时。所以人们看一遍视频,然后说这个视频里有猪或者没猪,这样就得到了多示例学习的数据。在 1000 帧的数据中,不是每一个帧都有猪出现,只要有一帧有猪,我们就认为这个包是有猪的。只有所有帧都没有猪,才是没有猪的。从这里面学习哪一段视频(1000 张)有猪、哪一段视频没有猪,就是多事例学习的问题。
版权声明:本文为 “博览广文网” 原创文章,转载请附上原文出处链接及本声明;
工作时间:8:00-18:00
客服电话
0755-88186625
电子邮件
admin@lanyu.com
扫码二维码
获取最新动态