打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
聚类分析(一)——K

K-means算法

一般情况,聚类算法可以划分为以下几类:划分方法(partitioning method)、层次方法(hierarchical methods)、基于密度的方法(density-based methods)、基于网格的方法(grid-based methods)、基于模型的方法(model-based methods.k-means算法属于划分方法中的一种。

K-means算法的整个流程:首先从聚类对象中随机选出K个对象作为类簇的质心(当然了,初始参数的K代表聚类结果的类簇数),对剩余的每个对象,根据它们分别到这个K个质心的距离,将它们指定到最相似的簇(因为K-means是利用距离来量化相似度的,所以我们这里可以理解为是“将它们指定到离最近最近距离的质心所属类簇”)。然后重新计算质心位置。以上过程不断反复,直到准则函数收敛为止。通常采用平方误差准则,定义如下:



其中,E代表的意思是所有类簇中各对象到其所属类簇质点平方误差和.

K:聚类结果类簇个数

Ci:i个类簇

P:类簇中聚类对象

mi:i个类簇的质心

K-means的优点和不足:能处理大型数据集,结果簇相当紧凑,并且簇和簇之间明显分离。计算复杂性O(tkn) t:迭代次数、K :聚类数 n:样本数;但是

1)该算法必须事先给定类簇数和质点,簇数和质点的初始值设定往往会对聚类的算法影响较大。

2 ) 通常会在获得一个局部最优值时停止,

3 ) 并且只适合对数值型数据聚类,

4) 只适用于聚类结果为凸形的数据集,K-means方法不适合发现非凸面形状的类簇,或者大小差别很大的簇。

5) 噪音和孤立点数据敏感,少量的该类数据对质点的计算会产生极大的影响。

关于K-means的代码实现网上有很多。:)

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
★★★★★ 机器学习十大算法之二 ---- K-means聚类算法
SPSS 的聚类分析
数据挖掘聚类算法之K
EM算法
《R语言数据挖掘》第八章 R的一般聚类:揭示数据内在结构
无监督学习简介:了解主成分分析(PCA)和聚类方法
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服