@chrispher2012 数据,为梦想而生
跨行业数据挖掘标准流程(CRISP-DM ,cross-industry standard process for datamining) 此数据挖掘过程模型于1999年欧盟机构联合起草。通过近几年的发展,CRISP-DM模型在各种数据挖掘过程模型中占据领先位置,采用量达到近60%。本文简单的介绍了CRISP-DM,参考信息主要源自维基百科及其所注的链接。
CRIS-DM模型如下:
主要过程为:商业理解 —— 数据理解 —— 数据准备 —— 建模 —— 模型评估 —— 部署,我们将分别从这六个方面概要的讲述。
商业理解(Business Understanding):最开始阶段我们必须从商业的角度上面了解项目需求和最终目标,并将这些需求和目标转化为数据挖掘里的定义和目标。
主要考虑点如下:
数据理解(Data Understanding):从数据收集开始、到熟悉数据,进而对数据的可用性进行评估,发现有用的数据和数据的潜在假设。
主要考虑点如下:
数据准备(Data Preparation):将原始数据处理成最终建模需要的数据。该过程可能多次执行,且非常耗时,包括特征选择、数据清洗、数据预处理、数据转换等等。主要考虑点如下:
建模(Modeling):使用数据挖掘模型技术进行建模,并对参数进行调优。过程中,可能会需要多次执行数据准备阶段。
主要考虑点如下:
模型评估(Evaluation):在得到了从数据挖掘角度看是高质量的模型,在部署模型之前,要对模型进行全面的评估。非常重要的一点,就是判断模型是否达到了既定的商业目标,是否有改进空间等。
主要考虑点如下:
部署(Deployment):在建模结束后,我们需要把得到的知识或规则应用起来。部署阶段极可能是生成一份报告,也可能是嵌入企业系统等。
主要考虑点如下:
虽然上述流程采用比例较大,如下图所示:
来自kdnuggets 2007年
但是,实际中我们可以根据自己的需要进行一定程度的修改。
联系客服