打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
数据分析方法,寻找规律的第一步,聚类分析法!第1辑

  



聚类——寻找规律的第一步

聚类的基本逻辑

聚类的因子和主成分

聚类的步骤

有序聚类与时间序列聚类

什么是聚类?聚类与分类是一个道理。分类就是把一个事物拆分成不同的部分,而聚类就是把分散的多个事物归集成不同的类别。

在大数据时代,每个事物都是一个独立的个体,并且我们有着描述这个个体各种各样的数据,因为个体太多了,所以开始看不清楚这些事物是什么了。因此需要把这些事物进行归集、整理,这样可以便于管理。面对上千个有个性化要求的客户,该如何满足他们呢?这就需要我们把几千个需求进行归类,然后分类满足,这样就比较容易实现。

分类与聚类的逻辑相反,但结果一样。分类是我们看到了上千个事物,但不知道怎么认识它们,也不能把它们都当作一个事物看待,所以需要把这些事物拆分成几大类,分类管理。所以,分类和聚类的本质是一样的,都是得到一个最终的能够进行分类管理事物的方法,只是出发点不同:分类从整体出发,聚类从每个事物的具体细节出发。

聚类和分类都是人类认知事物的基本思路之一,在找寻事物发展规律的旅途上,分类是必不可少的基础,没有对事物的分类,所有的规律都不可能得到应用。找到一类事物的规律,通过对类别的识别,从而推演出该类中的其他事物也可以使用这个规律,这样的规律才是真正的规律。任何只适合个案的规律都不能称作规律,规律本身必须具有普适性,这个普适性是指在一“类”事物上是普遍适用的。所以,把分类和聚类都看作寻找事物发展规律和应用事物发展规律的第一步

人类在认知自然界时也用到了聚类的方法,即通过观察事物,然后对事物的特征进行总结分析,最后形成对自然界的认知。例如,我们认知植物时,把自然界的植物按照类别进行划分,同一类植物具有类似的属性和特征,从而比较容易推断植物的习性。

公司的管理也一样,随着公司的发展,公司需要管理大量的人员(员工),可以利用分类—聚类的方法把上万名员工分成不同职系、职级、薪级来进行管理。分类和聚类在我们的日常生活和经营管理活动中随处可见。越是看似简单的事情,越值得数据分析师深度研究。

6.1 聚类的基本逻辑

俗语说,物以类聚,人以群分。事物怎么群分呢?按照什么标准来群分呢?可以通过直觉经验或者常识选择几个维度对事物进行分类。但是当事物相对较为复杂时,用什么方法来分类呢?这就用到了聚类的方法。

聚类的基本逻辑就是按照一定的方法把存在各种差异的事物按照其在某些方面的相似性聚集成几类,类与类之间的差异比较大,而同一类中的事物的差异比较小。所以,对于聚类方法,需要关注两个核心问题:事物之间的相似性,类与类之间的差异性。

对事物分类的角度不同,会导致分类的方法也不同。在对一群人进行分类时,按照年龄分有大人和小孩,按照性别分有男人和女人,按照地域分有南方人和北方人,按照财富分有富人和穷人。

相似性的反面就是事物的差异性,如何来评价事物的差异性或者相似性呢?在数学上将其称作“距离”。当对“人”进行分类时,可以把人与人之间的不同看作人与人之间的距离。

对于“人”这个事物,应该如何评价人与人之间的相似性和差异性呢?可以从人的各种描述属性进行研究。

同样是一群人,根据其人口统计学上的变量,可以划分成不同的类别,但是对于特定的人群,例如客户、在一个地点聚集的人群,还要考虑其他因素,如下图为聚集在某个地点的人群。

除考虑人们自身的各种人口统计学的属性外,还要考虑人们聚集的目的,有的人聚集到一个地点是为了参加一个活动,例如体育赛事;有的人聚集到一个地点是为了旅游,例如旅游景点;有的人聚集到一个地点是为了出行,例如机场、车站。聚集的目的不同,人群的行为方式会有根本性的不同。

除可以研究人们聚集的目的外,还可以研究聚集人群的行为和活动,例如聚集在景点中的人们都在照相或者浏览风光;聚集在车站中的人们都在准备出行。同样的聚集目的,人们的活动也有可能存在巨大的差异。

所以不同的聚类目的,需要考察的变量也是不同的。例如,两个女孩之间的相似性是她们都是女性,但两个女孩的身高不同、学历不同、血型不同、肤色不同、头发长短不同、说话的语言也不同,有各种各样的属性指标可以评价人与人之间的相似性和差异性。

针对复杂的问题,一般采用聚类算法来实现对事物或者对象的聚类。聚类可以是对对象(事物本身)的聚类,也可以是对对象的描述属性的聚类。这两种聚类一类叫作R型聚类,主要针对描述事物的变量来聚类,让具有相似性的变量聚集为一类;另一类叫作Q型聚类,它是根据对象的各种属性值对对象(事物本身)进行的聚类。这两类方法在含义上有着本质的区别,但是在算法上没有什么不同。

把聚成的各个类叫作“簇”。一个聚类的好坏是根据聚类后的结果——簇的质量来评价的。好的聚类从聚类的目的出发,必须要达到目的。聚类的目的就是:同一个类中的对象要非常相似,即相似程度要高;不同类之间要有较大的差异性。

上面这些内容可能太理论化了,下面举例说明。在日常识别事物时,都是使用常识或者大家的共识。通常所说的好人、坏人、优秀的人、平庸的人,也是分类的方法。分类和聚类可以很简单,也可以很复杂。

宝洁公司利用其六大系列的洗发水在中国洗发水市场中占据了一半以上的市场份额,最高的时候其曾经占领了四分之三的市场份额。之所以要开发六大系列的洗发水,是因为在宝洁公司眼中,消费者是不同的,他们有各种各样的需求。对于消费者,一般会采用简单的分类方法,可能只会将他们分成年轻人、老年人、孩子,或者男人、女人,抑或是长发的人和短发的人。而宝洁公司在认知消费者对洗发水的需求时,把消费者分成各种类型,包括敏感型、时尚型、清洁型、经济型、舒爽型、营养型、柔顺型、染发保护型、飘逸型等,最复杂的细分能够做到几十种,在这种认知下开发的产品就更加细分、更加符合消费者的需求,从而能够让更多的人喜欢,这才是一个公司成功的关键所在。所以,要深入聚类和分类,而不是仅仅停留在常识和共识的层面。

市场的竞争是激烈的,对市场的认知需要更加细微、更加敏锐,对消费者的需求要明察秋毫,要感知消费者需求变化的细微之处并且能随时做出前瞻性的调整。

全文摘自《企业经营数据分析-思路、方法、应用与工具》赵兴峰著

该文转载已取得作者认可

版权说明:版权所有归明悦数据所有,如需转载请联系我们,我们将在第一时间处理,或请注明内容出处(《企业经营数据分析》赵兴峰著),非常感谢!【往期内容已在(明悦数据)公众号同步发布】

下期内容更实战!

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
高中信息技术《数据管理与分析》练习题(含解析)
1分钟看懂差异表达基因结果
作为一名大一新生专业是大数据专业,应该从哪里开始入门学习?
每个数据科学家都应该知道的10种机器学习方法
系统论是认知法宝
“类比论证”和“错误类比”
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服