无监督学习属于机器学习技术的一类。它的作用是发现数据中的模式。无监督算法所使用的数据没有被标注。这就表明只给了输入变量(X),而没有对应的输出变量。在无监督学习过程中,算法会自行去探寻数据中具有意义的结构。
首席 AI 科学家 Yan 进行解释,无监督学习是“真正的”AI 的关键。这种学习方式是教机器自己去学习,无需明确地告知它们所做的每一件事是对还是错。
监督学习 VS 无监督学习
在监督学习里,系统会努力从先前给出的那些例子里进行学习。而在无监督学习中,系统则试图直接从所给出的例子当中去找到模式。所以,如果一个数据集带有标记,那么它就属于有监督问题;如果一个数据集没有标记,那么它就是一个无监督问题。
如上图所示,左边呈现的是监督学习的例子;我们借助回归技术去探寻特征之间的最佳拟合线。然而在无监督学习里,输入是以特征分离为基础的,预测则取决于它所属的聚类情况。
重要术语
为无监督学习做准备
我们在本文中使用 Iris 数据集(鸢尾花卉数据集)开展第一次预测。此数据集有 150 条记录,包含 5 个属性,分别是花瓣长度、花瓣宽度、萼片长度、萼片宽度和类别。其类别有三个,分别是 Iris (山鸢尾)、Iris (维吉尼亚鸢尾)和 Iris (变色鸢尾)。我们的无监督算法,给出了鸢尾花的这四个特征,然后预测它属于哪一类。在某个过程中,我们利用某个方式来加载 Iris 数据集,并且通过某种手段进行数据可视化。以下是相关的代码片段。
紫罗兰色:山鸢尾,绿色:维吉尼亚鸢尾,黄色:变色鸢尾
聚类()
在聚类过程中,数据被划分成了几个组。其目的简单来讲,就是把具有相似特征的组区分开来,并且把它们组合成聚类。
可视化示例:
在上述图里,左边的图像为未完成分类的原始数据,右边的图像是经过聚类的。聚类是依据数据的特征对数据进行分类的。当有要预测的输入时,会依据其特征在它所属的聚类中进行查找,并做出预测。
中的K-聚类
K-是一种迭代聚类算法,其目的在于每次迭代时找到局部最大值。首先要选择所需数量的聚类。因为我们已经知晓涉及 3 个类,所以把参数“”传递到 K-模型中,以此将数据分组为 3 个类。
现在,把三个点(输入)随机分成三个聚类。依据每个点与其他点之间的质心距离,将下一个给定的输入划分到所需的聚类中。接着,重新对所有聚类的质心进行计算。
聚类的每个质心都是特征值的集合,它用于定义生成的组。通过检查质心特征权重,能够定性地解释每个聚类所代表的是何种类型的组。
我们从库导入K-模型,拟合特征并进行预测。
中的K 实现:
分层聚类
顾名思义,分层聚类是一种用于构建聚类层次结构的算法。这种算法首先将所有数据各自分配为一个,然后把距离最近的两个数据合并到同一个类别中。最后,当只剩下一个数据时,算法便结束了。
分层聚类的完成可以使用树状图来表示。
下面是一个分层聚类的例子。数据集可以在这里找到:
//-less-rows.csv
中的分层聚类实现:
K 聚类与分层聚类的区别
t-SNE聚类
t-SNE 聚类是一种用于可视化的无监督学习方法。t-SNE 即 t 分布的随机近邻嵌入。它能将高维空间映射到可可视化的 2 维或 3 维空间。具体来讲,它通过二维点或三维点来对每个高维对象进行建模,使得相似的对象由附近的点来建模,而不相似的对象很大概率由远离的点来建模。
中的t-SNE聚类实现,数据集是Iris数据集:
Iris 数据集有四个特征(4d),它被进行了变换并且以二维图形的形式呈现出来。同样地,t-SNE 模型能够应用在具有 n 个特征的数据集上。
聚类
具有噪声的基于密度的聚类方法是一种流行的聚类算法,在预测分析中可替代 K-。它运行时不要求输入聚类的数值。不过,作为交换,你必须调整其他两个参数。
提供了 eps 和参数的默认值,而这些参数通常是需要进行调整的。其中,eps 参数指的是在同一邻域中被考虑的两个数据点之间的最大距离。另外,参数则是被认定为属于聚类的邻域中的数据点的最小数量。
中的聚类:
版权声明:本文为 “博览广文网” 原创文章,转载请附上原文出处链接及本声明;
工作时间:8:00-18:00
客服电话
0755-88186625
电子邮件
admin@lanyu.com
扫码二维码
获取最新动态