打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
跨行业数据挖掘标准流程


@chrispher2012 数据,为梦想而生

跨行业数据挖掘标准流程(CRISP-DM ,cross-industry standard process for datamining) 此数据挖掘过程模型于1999年欧盟机构联合起草。通过近几年的发展,CRISP-DM模型在各种数据挖掘过程模型中占据领先位置,采用量达到近60%。本文简单的介绍了CRISP-DM,参考信息主要源自维基百科及其所注的链接。

CRIS-DM模型如下: 


主要过程为:商业理解 —— 数据理解 —— 数据准备 —— 建模 —— 模型评估 —— 部署,我们将分别从这六个方面概要的讲述。

商业理解

商业理解(Business Understanding):最开始阶段我们必须从商业的角度上面了解项目需求和最终目标,并将这些需求和目标转化为数据挖掘里的定义和目标。
主要考虑点如下:

  • 确定商业目标:明确商业背景、商业目标、可衡量的成功标准
  • 评估环境:明确企业资源、需求、约束,风险,沟通,成本代价分析
  • 确定数据挖掘目标:明确目标以及可衡量的成功标准
  • 制定项目计划

数据理解

数据理解(Data Understanding):从数据收集开始、到熟悉数据,进而对数据的可用性进行评估,发现有用的数据和数据的潜在假设。
主要考虑点如下:

  • 收集原始数据:撰写数据收集报告(充分理解数据来源,注意数据集有效时间)
  • 描述数据:数据描述报告
  • 探索数据:数据探索报告
  • 检验数据质量:数据质量报告

数据准备

数据准备(Data Preparation):将原始数据处理成最终建模需要的数据。该过程可能多次执行,且非常耗时,包括特征选择、数据清洗、数据预处理、数据转换等等。主要考虑点如下:

  • 数据准备:数据集和数据集描述
  • 选择数据:包含/排除数据的准则
  • 清洗数据:数据清洗报告,一定要记录数据清洗方法
  • 构造数据:派生属性,数据转化、离散、产生新纪录化等等
  • 整合数据:合并数据,匹配数据
  • 格式化数据:去量纲等

建模

建模(Modeling):使用数据挖掘模型技术进行建模,并对参数进行调优。过程中,可能会需要多次执行数据准备阶段。
主要考虑点如下:

  • 选择建模技术:建模技术、建模建设
  • 生成测试设计:撰写测试设计文档
  • 构建模型:使用的参数、模型以及模型描述
  • 评估模型:评估模型并完善参数

模型评估

模型评估(Evaluation):在得到了从数据挖掘角度看是高质量的模型,在部署模型之前,要对模型进行全面的评估。非常重要的一点,就是判断模型是否达到了既定的商业目标,是否有改进空间等。
主要考虑点如下:

  • 评估结果:一句商业成功标准评价模型结果、审核模型
  • 重申模型:审核模型建立过程
  • 确定一下步:最终决定

部署

部署(Deployment):在建模结束后,我们需要把得到的知识或规则应用起来。部署阶段极可能是生成一份报告,也可能是嵌入企业系统等。
主要考虑点如下:

  • 规划与部署:部署计划
  • 规划监控与维护:计划书
  • 最终报告:得到最终报告或陈述
  • 回顾项目:经验文档

虽然上述流程采用比例较大,如下图所示: 


来自kdnuggets 2007年
但是,实际中我们可以根据自己的需要进行一定程度的修改。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
大数据计算平台搭建方法论
美林数据: 如何快速完成一个数据挖掘分析项目?| 会员专栏
干货:数据挖掘方法论与工程化思考
Excel应用大全 | 什么是CRISP-DM 模型
数据挖掘工具:谁最适合CRM
我一般不发大招,但这篇高分解读你不看会后悔
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服