无监督学习：机器学习中自我发现数据模式的关键技术

2025年03月11日阅读 13

摘要：无监督学习属于机器学习技术的一类。它的作用是发现数据中的模式。无监督算法所使用的数据没有被标注。这就表明只给了输入变量（X），而没有对应的输出变量。在无监督学习过程中，算法会自行去探寻数据中具有意义的结构。首席AI科学家Yan进行解释，无监督学习是“...

无监督学习属于机器学习技术的一类。它的作用是发现数据中的模式。无监督算法所使用的数据没有被标注。这就表明只给了输入变量（X），而没有对应的输出变量。在无监督学习过程中，算法会自行去探寻数据中具有意义的结构。

首席 AI 科学家 Yan 进行解释，无监督学习是“真正的”AI 的关键。这种学习方式是教机器自己去学习，无需明确地告知它们所做的每一件事是对还是错。

监督学习 VS 无监督学习

在监督学习里，系统会努力从先前给出的那些例子里进行学习。而在无监督学习中，系统则试图直接从所给出的例子当中去找到模式。所以，如果一个数据集带有标记，那么它就属于有监督问题；如果一个数据集没有标记，那么它就是一个无监督问题。

如上图所示，左边呈现的是监督学习的例子；我们借助回归技术去探寻特征之间的最佳拟合线。然而在无监督学习里，输入是以特征分离为基础的，预测则取决于它所属的聚类情况。

重要术语

为无监督学习做准备

我们在本文中使用 Iris 数据集（鸢尾花卉数据集）开展第一次预测。此数据集有 150 条记录，包含 5 个属性，分别是花瓣长度、花瓣宽度、萼片长度、萼片宽度和类别。其类别有三个，分别是 Iris （山鸢尾）、Iris （维吉尼亚鸢尾）和 Iris （变色鸢尾）。我们的无监督算法，给出了鸢尾花的这四个特征，然后预测它属于哪一类。在某个过程中，我们利用某个方式来加载 Iris 数据集，并且通过某种手段进行数据可视化。以下是相关的代码片段。

紫罗兰色：山鸢尾，绿色：维吉尼亚鸢尾，黄色：变色鸢尾

聚类（）

在聚类过程中，数据被划分成了几个组。其目的简单来讲，就是把具有相似特征的组区分开来，并且把它们组合成聚类。

可视化示例：

在上述图里，左边的图像为未完成分类的原始数据，右边的图像是经过聚类的。聚类是依据数据的特征对数据进行分类的。当有要预测的输入时，会依据其特征在它所属的聚类中进行查找，并做出预测。

中的K-聚类

K-是一种迭代聚类算法，其目的在于每次迭代时找到局部最大值。首先要选择所需数量的聚类。因为我们已经知晓涉及 3 个类，所以把参数“”传递到 K-模型中，以此将数据分组为 3 个类。

现在，把三个点（输入）随机分成三个聚类。依据每个点与其他点之间的质心距离，将下一个给定的输入划分到所需的聚类中。接着，重新对所有聚类的质心进行计算。

聚类的每个质心都是特征值的集合，它用于定义生成的组。通过检查质心特征权重，能够定性地解释每个聚类所代表的是何种类型的组。

我们从库导入K-模型，拟合特征并进行预测。

中的K 实现：

分层聚类

顾名思义，分层聚类是一种用于构建聚类层次结构的算法。这种算法首先将所有数据各自分配为一个，然后把距离最近的两个数据合并到同一个类别中。最后，当只剩下一个数据时，算法便结束了。

分层聚类的完成可以使用树状图来表示。

下面是一个分层聚类的例子。数据集可以在这里找到：

//-less-rows.csv

中的分层聚类实现：

K 聚类与分层聚类的区别

t-SNE聚类

t-SNE 聚类是一种用于可视化的无监督学习方法。t-SNE 即 t 分布的随机近邻嵌入。它能将高维空间映射到可可视化的 2 维或 3 维空间。具体来讲，它通过二维点或三维点来对每个高维对象进行建模，使得相似的对象由附近的点来建模，而不相似的对象很大概率由远离的点来建模。

中的t-SNE聚类实现，数据集是Iris数据集：

Iris 数据集有四个特征（4d），它被进行了变换并且以二维图形的形式呈现出来。同样地，t-SNE 模型能够应用在具有 n 个特征的数据集上。

聚类

具有噪声的基于密度的聚类方法是一种流行的聚类算法，在预测分析中可替代 K-。它运行时不要求输入聚类的数值。不过，作为交换，你必须调整其他两个参数。

提供了 eps 和参数的默认值，而这些参数通常是需要进行调整的。其中，eps 参数指的是在同一邻域中被考虑的两个数据点之间的最大距离。另外，参数则是被认定为属于聚类的邻域中的数据点的最小数量。

中的聚类：

原文链接：http://wen.bjhwtx.com/post/9455.html

博览广文网

: 博览广文网为所有文学爱好者、新闻爱好者、关注生活多方面内容的观众朋友提供多方位的内容呈现、提升阅读空间、填充碎片时间，开阔读者的视野、增长见识、了解民生、一个让您不出户尽知天下事的网站平台！

排行榜

生活百态

热门标签

关于我们: 广文舒阅网—让天下读者有家可归！这里汇聚了各类优质文化信息，无论是全球热点、历史故事，还是实用百科、趣味探索，您都能轻松获取。我们希望用阅读点亮您的世界，让每一次浏览都充满收获和乐趣。

导航栏A标题: 广文舒阅网

导航栏B标题

扫码关注

联系方式: 全国服务热线：0755-88186625; Q Q：8705332; Email：admin@lanyu.com; 地址：深圳市福田区海雅缤纷国际大厦5层501

客户电话

8705332

工作时间：8:00-18:00

客服电话
0755-88186625

电子邮件
admin@lanyu.com
官方微信

扫码二维码

获取最新动态
返回顶部