打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
大数据技术知识的学习及其切入点


文 / 曾剑平 



首要的问题:学习大数据要有充足的大数据源。也许很多人会想到使用交通大数据、金融大数据、医疗大数据、政务大数据等,但是仔细一想,这些数据的开放性很差。5月24日在贵阳的大数据产业博览会上,大批专家学者还在争论数据开放共享和数字政府治理的相关政策问题,还是一个务虚会,可见此类数据要真正开放共享、真正让普通学习者使用还有很长的路。从根本上讲,这些数据涉及到民众的大量隐私问题,即使能开放共享,也需要在特定的、受控的场合下使用,而这实际上这并不可行。在《互联网大数据处理技术与应用》一书中,我们阐述了互联网大数据作为教学、学习以及开发应用的重要性和可行性。

其次,要认识自己的技术特长、兴趣和学习的目的,选择合适的切入点进行学习。我们知道大数据技术通常包含3或4层的技术,以互联网大数据技术为例,其技术体系包含四层,即数据获取层、大数据计算与存储层、数据挖掘模型与算法层以及应用领域技术层。


作为大数据的学习者可以选择这四个层面作为自己的切入点。作为高校大数据教学,让学生进行系统地学习则是很重要的,这样有利于给学生一个全局、整体的理解,这样就要求以“系统学习的切入点”入手。如图所示,互联网大数据知识体系中标注了这些不同的切入点。

  

      


接下来,分析各个层次选择的一些考虑。

数据获取层:技术手段比较多样化,对于互联网大数据而言,数据的获取主要有三类方法,即网络爬虫、网络探针以及ETL。虽然爬虫技术也被越来越多的人所认识,但是爬虫形式多样化,包含普通爬虫、主题爬虫、微博爬虫、DeppWeb爬虫、动态爬虫甚至Dark Web爬虫技术,有共同的技术特点,也有较大的差异。以该层作为重点的话,应当深入理解爬虫的技术原理,以便能对爬虫采集的性能进行底层优化,特别是在爬行策略的设计上。

大数据计算与存储层:这个层次上的计算是指面向大数据分析的一些底层算法,典型的包括排序、搜索、查找、最短路径、矩阵运算等。这些算法与具体应用无关,它们为上层的数据挖掘提供基本的函数调用,算法性能的重要性不言而喻。一般需要一些分布式计算平台支持,例如Spark、Hadoop。但是该层作为研究和学习的重点,存在一定风险,就是平台技术的迭代太快,或许你还没有把Spark的技术原理彻底搞清楚,就有新的更好的平台出现,大家都追随新平台去了,老平台被大家抛弃。


数据挖掘模型与算法层:这个层次对采集的数据进行处理,根据具体应用需求,运用大数据分析算法进行数据分析,建立相关模型。各种大数据分析挖掘算法主要包括数据聚类、分类、相关性计算、回归、预测等。这些算法的输出结果将直接为领域提供具体的分析结果,是大数据分析的真正产出。在这个层次中,隐私保护技术是一种比较特殊的技术手段,主要用于对大数据中涉及个人和单位的敏感信息进行脱敏。针对该层,也有一些典型的开源系统,如运行于Hadoop 上的Mahout、Weka、oryx 以及运行于Spark上的MLib 等,都对大数据分析提供了支撑,同时也允许自己对算法进行改进和提升。是一个不错的切入点。

  

应用领域技术层:在这个层次,主要涉及到与具体应用领域有关的技术。这些技术通常就与用户UI、系统管理、输出有关。

最后,回答前面提到的问题。现在大数据技术方面的参考书或教材很多,但是大都针对大数据计算与存储层或数据挖掘模型与算法层,技术层次的阐述不够完整,也不利于进行系统学习。《互联网大数据处理技术与应用》的特色是完整包含这四层技术,并且在数据挖掘模型与算法层中以非结构化数据为主,书中有许多例子,在公众号“书圈”后台回复本书的书号或者作者名可以下载PPT



授课教师可以在微信公众号“书圈”的图书专区申请样书


本书内容分为三个部分,第一部分为互联网大数据的概述;第二部分为互联网大数据的获取与存储,包括了静态或动态WEB页面内容获取技术、结构化或非结构化数据的存储、常见的开源系统等;第二部分为处理与分析技术,包括了文本数据预处理、数据内容的语义分析技术、文本内容分类技术、聚类分析、大数据中的隐私保护、大数据可视化等内容;第三部分为综合应用。


目     录


第一篇基础篇

第1章大数据简介

1.1大数据

1.1.1大数据的定义

1.1.2大数据的特点

1.1.3大数据处理的挑战

1.2大数据挖掘

1.2.1大数据挖掘的定义

1.2.2大数据挖掘的特点

1.3大数据挖掘的相关方法

1.3.1数据预处理技术

1.3.2关联规则挖掘

1.3.3分类

1.3.4聚类

1.3.5孤立点挖掘

1.3.6演变分析

1.3.7特异群组分析

1.4大数据挖掘类型

1.4.1Web数据挖掘

1.4.2空间数据挖掘

1.4.3流数据挖掘

1.5大数据挖掘的常见应用

1.5.1社交网络分析

1.5.2文本分析

1.5.3推荐系统

1.6常用的大数据统计分析方法

1.6.1百分位

1.6.2皮尔森相关系数

1.6.3直方图

1.6.4T检验

1.6.5卡方检验

1.7常用的大数据挖掘评估方法

1.8大数据平台相关技术

1.8.1分布式存储技术

1.8.2分布式任务调度技术

1.8.3并行计算技术

1.8.4其他技术

1.9大数据平台实例——阿里云数加平台

1.9.1数加平台简介

1.9.2数加平台产品简介

1.9.3数加平台优势特色

1.9.4机器学习平台简介

1.9.5机器学习平台功能

1.9.6机器学习平台操作流程

1.10小结

思考题

第二篇技术篇

第2章数据预处理技术

2.1数据预处理的目的

2.2数据采样

2.2.1加权采样

2.2.2随机采样

2.2.3分层采样

2.3数据清理

2.3.1填充缺失值

2.3.2光滑噪声数据

2.3.3数据清理过程

2.4数据集成

2.4.1数据集成简介

2.4.2常用数据集成方法

2.5数据变换

2.5.1数据变换简介

2.5.2数据规范化

2.6数据归约

2.6.1数据立方体聚集

2.6.2维归约

2.6.3数据压缩

2.6.4数值归约

2.6.5数据离散化与概念分层

2.7特征选择

2.7.1特征选择简介

2.7.2Relief算法

2.7.3Fisher判别法

2.7.4基于GBDT的过滤式特征选择

2.8特征提取

2.8.1特征提取简介

2.8.2DKLT特征提取方法

2.8.3主成分分析法

2.9基于阿里云数加平台的数据采样与特征选择实例

2.10小结

思考题

第3章关联规则挖掘

3.1基本概念

3.2关联规则挖掘算法——Apriori算法原理

3.2.1Apriori算法原理解析

3.2.2Apriori算法应用举例

3.3Apriori算法源代码结果分析

3.4Apriori算法的特点及应用

3.4.1Apriori算法的特点

3.4.2Apriori算法的应用

3.5小结

思考题

第4章逻辑回归方法

4.1基本概念

4.1.1回归概述

4.1.2线性回归简介

4.2逻辑回归

4.2.1二分类逻辑回归

4.2.2多分类逻辑回归

4.2.3逻辑回归应用举例

4.2.4逻辑回归方法的特点

4.2.5逻辑回归方法的应用

4.3逻辑回归源代码结果分析

4.3.1线性回归

4.3.2多分类逻辑回归

4.4基于阿里云数加平台的逻辑回归实例

4.4.1二分类逻辑回归应用实例

4.4.2多分类逻辑回归应用实例

4.5小结

思考题

第5章KNN算法

5.1KNN算法简介

5.1.1KNN算法原理

5.1.2KNN算法应用举例

5.2KNN算法的特点及改进

5.2.1KNN算法的特点

5.2.2KNN算法的改进策略

5.3KNN源代码结果分析

5.4基于阿里云数加平台的KNN算法应用实例

5.5小结

思考题

第6章朴素贝叶斯分类算法

6.1基本概念

6.1.1主观概率

6.1.2贝叶斯定理

6.1.3朴素贝叶斯分类模型

6.1.4朴素贝叶斯分类器实例分析

6.2朴素贝叶斯算法的特点及应用

6.2.1朴素贝叶斯算法的特点

6.2.2朴素贝叶斯算法的应用场景

6.3朴素贝叶斯源代码结果分析

6.4基于阿里云数加平台的朴素贝叶斯实例

6.5小结

思考题

第7章随机森林分类算法

7.1随机森林算法简介

7.1.1随机森林算法原理

7.1.2随机森林算法应用举例

7.2随机森林算法的特点及应用

7.2.1随机森林算法的特点

7.2.2随机森林算法的应用

7.3随机森林算法源程序结果分析

7.4基于阿里云数加平台的随机森林分类实例

7.5小结

思考题

第8章支持向量机

8.1基本概念

8.1.1支持向量机理论基础

8.1.2统计学习核心理论

8.1.3学习过程的一致性条件

8.1.4函数集的VC维

8.1.5泛化误差界

8.1.6结构风险最小化归纳原理

8.2支持向量机原理

8.2.1支持向量机核心理论

8.2.2最大间隔分类超平面

8.2.3支持向量机

8.2.4核函数分类

8.3支持向量机的特点及应用

8.3.1支持向量机的特点

8.3.2支持向量机的应用

8.4支持向量机分类实例分析

8.5基于阿里云数加平台的支持向量机分类实例

8.6小结

思考题

第9章人工神经网络算法

9.1基本概念

9.1.1生物神经元模型

9.1.2人工神经元模型

9.1.3主要的神经网络模型

9.2BP算法的原理

9.2.1Delta学习规则的基本原理

9.2.2BP神经网络的结构

9.2.3BP神经网络的算法描述

9.2.4标准BP神经网络的工作过程

9.3BP神经网络实例分析

9.4BP神经网络的特点及应用

9.4.1BP神经网络的特点

9.4.2BP神经网络的应用

9.5BP神经网络算法源代码结果分析

9.6小结

思考题

第10章决策树分类算法

10.1基本概念

10.1.1决策树分类算法简介

10.1.2决策树基本算法概述

10.2决策树分类算法——ID3算法原理

10.2.1ID3算法原理

10.2.2熵和信息增益

10.2.3ID3算法

10.3ID3算法实例分析

10.4ID3算法的特点及应用

10.4.1ID3算法的特点

10.4.2ID3算法的应用

10.5ID3算法源程序结果分析

10.6决策树分类算法——C4.5算法原理

10.6.1C4.5算法

10.6.2C4.5算法的伪代码

10.7C4.5算法实例分析

10.8C4.5算法的特点及应用

10.8.1C4.5算法的特点

10.8.2C4.5算法的应用

10.9C4.5源程序结果分析

10.10小结

思考题

第11章Kmeans聚类算法

11.1Kmeans聚类算法原理

11.1.1Kmeans聚类算法原理解析

11.1.2Kmeans聚类算法应用举例

11.2Kmeans聚类算法的特点及应用

11.2.1Kmeans聚类算法的特点

11.2.2Kmeans聚类算法的应用

11.3K均值聚类算法源程序结果分析

11.4基于阿里云数加平台的K均值聚类算法实例

11.5基于MaxCompute Graph模型的Kmeans算法源程序分析

11.6小结

思考题

第12章K中心点聚类算法

12.1K中心点聚类算法原理

12.1.1K中心点聚类算法原理解析

12.1.2K中心点聚类算法实例分析

12.2K中心点聚类算法的特点及应用

12.2.1K中心点聚类算法的特点

12.2.2K中心点聚类算法的应用

12.3K中心点算法源程序结果分析

12.4小结

思考题

第13章自组织神经网络聚类算法

13.1SOM网络简介

13.2竞争学习算法基础

13.2.1SOM网络结构

13.2.2SOM网络概述

13.3SOM网络原理

13.3.1SOM网络的拓扑结构

13.3.2SOM权值调整域

13.3.3SOM网络运行原理

13.3.4SOM网络学习方法

13.4SOM网络应用举例

13.4.1问题描述

13.4.2网络设计及学习结果

13.4.3输出结果分析

13.5SOM网络的特点及应用

13.5.1SOM网络的特点

13.5.2SOM网络的应用

13.6SOM神经网络源程序结果分析

13.7小结

思考题

第14章DBSCAN聚类算法

14.1DBSCAN算法的原理

14.1.1DBSCAN算法原理解析

14.1.2DBSCAN算法应用举例

14.2DBSCAN算法的特点与应用

14.2.1DBSCAN算法的特点

14.2.2DBSCAN算法的应用

14.3DBSCAN源程序结果分析

14.4小结

思考题

第三篇综合应用篇

第15章社交网络分析方法及应用

15.1社交网络简介

15.2K核方法

15.2.1K核方法原理

15.2.2基于阿里云数加平台的K核方法实例

15.3单源最短路径方法

15.3.1单源最短路径方法原理

15.3.2基于阿里云数加平台的单源最短路径方法实例

15.4PageRank算法

15.4.1PageRank算法原理

15.4.2PageRank算法的特点及应用

15.4.3基于阿里云数加平台的PageRank算法实例

15.5标签传播算法

15.5.1标签传播算法原理

15.5.2基于阿里云数加平台的标签传播聚类应用实例

15.6最大联通子图算法

15.7聚类系数算法

15.7.1聚类系数算法原理

15.7.2基于阿里云数加平台的聚类系数算法应用实例

15.8基于阿里云数加平台的社交网络分析实例

15.9小结

思考题

第16章文本分析方法及应用

16.1文本分析简介

16.2TFIDF方法

16.3中文分词方法

16.3.1基于字典或词库匹配的分词方法

16.3.2基于词的频度统计的分词方法

16.3.3其他中文分词方法

16.4PLDA方法

16.4.1主题模型

16.4.2PLDA方法原理

16.5Word2Vec基本原理

16.5.1词向量的表示方式

16.5.2统计语言模型

16.5.3霍夫曼编码

16.5.4Word2Vec原理简介

16.6基于阿里云数加平台的文本分析实例

16.7小结

思考题

第17章推荐系统方法及应用

17.1推荐系统简介

17.2基于内容的推荐算法

17.2.1基于内容的推荐算法原理

17.2.2基于内容的推荐算法的特点

17.3协同过滤推荐算法

17.3.1协同过滤推荐算法简介

17.3.2协同过滤推荐算法的特点

17.4混合推荐算法

17.5基于阿里云数加平台的推荐算法实例

17.6小结

思考题

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
人工智能程序员入门应该学哪些算法?
大数据导论
聚类算法实践(3)——PCCA、SOM、Affinity Propagation
基因芯片数据分析中的标准化算法和聚类算法
AIops | 一文了解日志异常检测
四种聚类方法之比较
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服