首页/知天下事/正文
无监督学习:机器学习中自我发现数据模式的关键技术

 2025年03月11日  阅读 13

摘要:无监督学习属于机器学习技术的一类。它的作用是发现数据中的模式。无监督算法所使用的数据没有被标注。这就表明只给了输入变量(X),而没有对应的输出变量。在无监督学习过程中,算法会自行去探寻数据中具有意义的结构。首席AI科学家Yan进行解释,无监督学习是“...

无监督学习属于机器学习技术的一类。它的作用是发现数据中的模式。无监督算法所使用的数据没有被标注。这就表明只给了输入变量(X),而没有对应的输出变量。在无监督学习过程中,算法会自行去探寻数据中具有意义的结构。

首席 AI 科学家 Yan 进行解释,无监督学习是“真正的”AI 的关键。这种学习方式是教机器自己去学习,无需明确地告知它们所做的每一件事是对还是错。

监督学习 VS 无监督学习

在监督学习里,系统会努力从先前给出的那些例子里进行学习。而在无监督学习中,系统则试图直接从所给出的例子当中去找到模式。所以,如果一个数据集带有标记,那么它就属于有监督问题;如果一个数据集没有标记,那么它就是一个无监督问题。

如上图所示,左边呈现的是监督学习的例子;我们借助回归技术去探寻特征之间的最佳拟合线。然而在无监督学习里,输入是以特征分离为基础的,预测则取决于它所属的聚类情况。

重要术语

为无监督学习做准备

我们在本文中使用 Iris 数据集(鸢尾花卉数据集)开展第一次预测。此数据集有 150 条记录,包含 5 个属性,分别是花瓣长度、花瓣宽度、萼片长度、萼片宽度和类别。其类别有三个,分别是 Iris (山鸢尾)、Iris (维吉尼亚鸢尾)和 Iris (变色鸢尾)。我们的无监督算法,给出了鸢尾花的这四个特征,然后预测它属于哪一类。在某个过程中,我们利用某个方式来加载 Iris 数据集,并且通过某种手段进行数据可视化。以下是相关的代码片段。

紫罗兰色:山鸢尾,绿色:维吉尼亚鸢尾,黄色:变色鸢尾

聚类()

在聚类过程中,数据被划分成了几个组。其目的简单来讲,就是把具有相似特征的组区分开来,并且把它们组合成聚类。

可视化示例:

在上述图里,左边的图像为未完成分类的原始数据,右边的图像是经过聚类的。聚类是依据数据的特征对数据进行分类的。当有要预测的输入时,会依据其特征在它所属的聚类中进行查找,并做出预测。

中的K-聚类

K-是一种迭代聚类算法,其目的在于每次迭代时找到局部最大值。首先要选择所需数量的聚类。因为我们已经知晓涉及 3 个类,所以把参数“”传递到 K-模型中,以此将数据分组为 3 个类。

现在,把三个点(输入)随机分成三个聚类。依据每个点与其他点之间的质心距离,将下一个给定的输入划分到所需的聚类中。接着,重新对所有聚类的质心进行计算。

聚类的每个质心都是特征值的集合,它用于定义生成的组。通过检查质心特征权重,能够定性地解释每个聚类所代表的是何种类型的组。

我们从库导入K-模型,拟合特征并进行预测。

中的K 实现:

分层聚类

顾名思义,分层聚类是一种用于构建聚类层次结构的算法。这种算法首先将所有数据各自分配为一个,然后把距离最近的两个数据合并到同一个类别中。最后,当只剩下一个数据时,算法便结束了。

分层聚类的完成可以使用树状图来表示。

下面是一个分层聚类的例子。数据集可以在这里找到:

//-less-rows.csv

中的分层聚类实现:

K 聚类与分层聚类的区别

t-SNE聚类

t-SNE 聚类是一种用于可视化的无监督学习方法。t-SNE 即 t 分布的随机近邻嵌入。它能将高维空间映射到可可视化的 2 维或 3 维空间。具体来讲,它通过二维点或三维点来对每个高维对象进行建模,使得相似的对象由附近的点来建模,而不相似的对象很大概率由远离的点来建模。

中的t-SNE聚类实现,数据集是Iris数据集:

Iris 数据集有四个特征(4d),它被进行了变换并且以二维图形的形式呈现出来。同样地,t-SNE 模型能够应用在具有 n 个特征的数据集上。

聚类

具有噪声的基于密度的聚类方法是一种流行的聚类算法,在预测分析中可替代 K-。它运行时不要求输入聚类的数值。不过,作为交换,你必须调整其他两个参数。

提供了 eps 和参数的默认值,而这些参数通常是需要进行调整的。其中,eps 参数指的是在同一邻域中被考虑的两个数据点之间的最大距离。另外,参数则是被认定为属于聚类的邻域中的数据点的最小数量。

中的聚类:

版权声明:本文为 “博览广文网” 原创文章,转载请附上原文出处链接及本声明;

原文链接:http://wen.bjhwtx.com/post/9455.html

标签:

博览广文网

博览广文网为所有文学爱好者、新闻爱好者、关注生活多方面内容的观众朋友提供多方位的内容呈现、提升阅读空间、填充碎片时间,开阔读者的视野、增长见识、了解民生、一个让您不出户尽知天下事的网站平台!
热门标签
关于我们
广文舒阅网—让天下读者有家可归!这里汇聚了各类优质文化信息,无论是全球热点、历史故事,还是实用百科、趣味探索,您都能轻松获取。我们希望用阅读点亮您的世界,让每一次浏览都充满收获和乐趣。
导航栏A标题
广文舒阅网
扫码关注
联系方式
全国服务热线:0755-88186625
Q Q:8705332
Email:admin@lanyu.com
地址:深圳市福田区海雅缤纷国际大厦5层501
Copyright 深圳市蓝宇科技有限公司 版权所有 备案号:京ICP备20013102号-1