首页/知天下事/正文
探索无监督学习的12种重要算法:从聚类到异常检测的全面解析

 2025年02月10日  阅读 14

摘要:来源:DeepHubIMBA本文约1500字,建议阅读5分钟本文为你介绍无监督学习的12个最重要的算法介绍及用例。无监督的学习()是另一种与监督学习相反的主流机器学习方法。无监督的学习没有任何数据注释,而是数据本身。无监督的学习算法有几种类型,以下是最...

来源:DeepHub IMBA
本文约1500字,建议阅读5分钟本文为你介绍无监督学习的12个最重要的算法介绍及用例。

无监督的学习()是另一种与监督学习相反的主流机器学习方法。无监督的学习没有任何数据注释,而是数据本身。

无监督的学习算法有几种类型,以下是最重要的12种:

1。基于相似性将数据点划分为群集。

k聚集是一种流行的聚类算法,将数据划分为k组。

2。降低算法降低了数据的维度,从而更容易可视化和处理。

主成分分析(PCA)是将数据投射到低维空间的维度降低算法,并且PCA可用于将数据减少到其最重要的特征。

3。异常检测算法识别异常值或异常数据点

支持向量机可用于异常检测(示例)[26]。异常检测算法用于检测数据集中的异常点。有许多异常检测方法,但其中大多数可以分为监督和无监督。有监督的方法需要标记数据集,而无监督的方法则不需要标签。

无监督的异常检测算法通常基于密度估计[20],试图在数据空间中找到密集区域以外的点。

一种简单的方法是计算从每个点到k最近邻居的平均距离。距离相邻点很远的点可能是异常点。

也有许多基于密度的异常检测算法,包括局部离群因子(,LOF)和支持向量数据描述(,SVDD)。这些算法比简单的k-邻居方法更为复杂,并且通常可以检测到更微妙的例外[21]。需要调整大多数异常检测算法,例如指定参数以控制算法对异常的敏感性。如果参数太低,则该算法可能会错过一些例外。如果设置过高,则该算法可能会产生误报(将正常点标识为异常点)。

4。分割算法将数据划分为段或组[12]

分割算法可以将图像分割为前景和背景。

这些算法可以自动将数据集分为有意义的组,而无需手动监督。该领域中最著名的算法之一是K-。该算法通过最大程度地减少组内平方距离的总和将数据点划分为k组。

另一个流行的分割算法是平均算法。该算法是通过迭代将每个数据点移至本地社区中心的。平均值对离群值非常强大,并且可以处理密度不均的数据集。但是在大型数据集上运行它可能很昂贵。

高斯混合模型(GMM)是可用于分割的概率模型。 GMM过去需要大量的计算进行训练,但是最近的研究进展使它变得更快。 GMM非常灵活,可用于任何类型的数据。但是他们有时并不总是会产生最好的结果。对于简单的数据集,K-是一个不错的选择,而GMM更适合复杂数据集。在任何一种情况下,平均值都可以使用,但是大型数据集上的计算成本可能很高。

5。降低算法可减少或消除数据中的噪声

小波变换可用于图像。但是,各种来源可能会产生噪音,包括数据损坏,缺失值和异常值。 算法通过减少数据中的噪声量来提高无监督学习模型的准确性[10]。

有许多现有的算法,包括主成分分析(PCA),独立组件分析(ICA)和非负矩阵分解(NMF)[11]。

6.链接预测算法预测数据点之间的未来连接(例如,网络中两个节点之间的未来交互)

学习的方法有哪些_学习的方法有哪些_学习的方法有哪些

链接预测可用于预测谁将成为社交网络上的朋友。最常用的链接预测算法之一是首选连接算法[15],它预测,如果两个节点具有许多现有连接,则更有可能连接。

另一个流行的链路预测算法是局部路径算法,该算法预测,如果两个节点共享一个共同的邻居,则更有可能相关联[27]。该算法可以捕获“结构当量” [16]的概念,因此经常在生物网络中使用。

最后,使用算法的步行也是链接预测算法,该算法模拟网络上的随机助行器并以随机节点重新启动步行者[17]。然后使用助行器达到特定节点的概率来测量两个节点之间连接的可能性。

7。通过重复试验学习增强学习算法

Q-是基于价值的学习算法[1]的一个示例;它在实施方面很简单又一般。但是q-有时会收敛到次优溶液[18]。另一个示例是TD,它在计算上是更多的Q学习要求,但通常可以找到更好的解决方案[19]。

8。生成模型:该算法使用培训数据生成新数据

自动编码器是生成模型,可用于从图像数据集创建唯一的图像。在机器学习中,生成模型是捕获一组数据的统计属性的模型。这些模型可用于生成新数据,就像它们用于培训的数据一样。

生成模型用于各种任务,例如无监督的学习,数据压缩和转化[22]。有许多类型的生成模型,例如隐藏的模型和机器[22]。每个模型都有其优点和缺点,适合不同的任务。

隐藏的马尔可夫模型擅长建模顺序数据,而机器则更好地建模高维数据[22]。通过在无标签数据上训练它们,可以将生成模型用于无监督的学习。训练模型后,它可用于生成新数据。然后,这些生成的数据可以由人类或其他机器学习算法标记。可以重复此过程,直到生成模型学习生成数据,就像所需的输出一样。

9。随机森林是一种机器学习算法,可用于监督和无监督的学习[9]

对于无监督的学习,随机森林可以找到一组类似的条目,识别异常值并压缩数据[9]。

已显示用于监督和无监督任务的随机森林已显示出优于其他流行的机器学习算法(例如支持向量机)[9]。随机森林是无监督学习的强大工具,因为它们可以处理具有许多功能的高维数据。他们还抗拒过度拟合,这意味着他们可以很好地推广到新数据。

10。这是一种基于密度的聚类算法,可用于无监督学习

它基于密度,即每个区域中的点数。如果小组中的要点接近,请将它们指向一个小组,而如果要点相距遥远,则忽略了。与其他聚类算法相比,有一些优点。它可以找到不同尺寸和形状的簇,并且不需要用户预先指定簇数[23] [28]。此外,它对离群值不敏感,这意味着它可以用于查找其他数据集代表的数据。但是有一些缺点。例如,在嘈杂的数据集中找到好的群集可能很难。另一件事是需要一个密度阈值,这可能不适用于所有数据集[23]。

11。算法用于查找关联,频繁的项目集和顺序模式[24]

该算法是第一个关联规则挖掘算法和最经典的算法。它首先查找数据中的所有常见项目集,然后使用这些项目集来生成规则,从而起作用。

实施算法有很多方法,可以根据不同的需求进行自定义。例如,可以控制支持和置信度阈值以找到不同类型的规则[24]。

12。算法矿山经常从交易数据库中进行集合,可用于购物车分析,入侵检测和文本挖掘[25]

该算法是采用垂直数据表示形式的深度优先算法。基于概念网格理论,使用基于前缀的等效关系将搜索空间(概念网格)分为较小的子空间(子概念网格)。

以上是无监督学习中常用的算法。如果您对它们感兴趣,请详细检查下面的报价(非常长,建议查看那些有兴趣的人)

1. an to q-:::

2。Q-:

3。:with:〜///。pdf

4。in:

5。 :2012。

学习的方法有哪些_学习的方法有哪些_学习的方法有哪些

6。gm,,,, a and of,38,2020,ISSN 1574–0137,

7。:

8。:

9。,L。(2001)。 。 ,45(1),5-32。

10。,T.,R。,&,J。(2009)。 :数据,和(第二版)。 &。

11。,CM(2006)。和 。 。

12。

13。链接:A。

14。链接。

15。在:和。

16。a为长路径。

17.快速步行及其。 〜// -rwr.pdf

18。Q-:A和。

19。 - :

20。

21。

22。,KP(2012)。 :A(第一版)。麻省理工学院。

23。a-用于…。

24。,和。 “快。”

25。,。 :,实现和。

26。 〜// 8.pdf

27。 。

28。K-: - 。

版权声明:本文为 “博览广文网” 原创文章,转载请附上原文出处链接及本声明;

原文链接:http://wen.bjhwtx.com/post/2706.html

标签:

博览广文网

博览广文网为所有文学爱好者、新闻爱好者、关注生活多方面内容的观众朋友提供多方位的内容呈现、提升阅读空间、填充碎片时间,开阔读者的视野、增长见识、了解民生、一个让您不出户尽知天下事的网站平台!
热门标签
关于我们
广文舒阅网—让天下读者有家可归!这里汇聚了各类优质文化信息,无论是全球热点、历史故事,还是实用百科、趣味探索,您都能轻松获取。我们希望用阅读点亮您的世界,让每一次浏览都充满收获和乐趣。
导航栏A标题
广文舒阅网
扫码关注
联系方式
全国服务热线:0755-88186625
Q Q:8705332
Email:admin@lanyu.com
地址:深圳市福田区海雅缤纷国际大厦5层501
Copyright 深圳市蓝宇科技有限公司 版权所有 备案号:京ICP备20013102号-1