云计算大数据国内第一专业实战门户职业学习规划

前言绪论

一、纵观大数据发展前景

1. 人们不再止步于大数据的谈论

2014年，大数据止于说的情况将发生改变，人们将致力于从中获益，所有大数据的炒作也将“烟消云散”。从Gainsight了解到，大数据本身也将成为桌面上的筹码，Gainsight在其IaaS平台中利用大数据分析被其称之为“customer success management”的服务。Gainsight认为，在2014年，每家云应用程序提供商都将会让其后端基础设施支持大数据。

2. Hadoop在大中型企业普及应用将成为企业的关键组件

Hadoop将普及，大数据也不会再继续止步于云服务。Alteryx认为，2014年，Hadoop的适用场景将超越批处理和存储，将成为企业数据架构中通用的核心组件，这意味着数据分析将继续成为大数据的首要用例。

3. 企业将更加钟情于用户数据

从Gainsight了解到，各个机构将对用户数据充满热情，企业将充分利用客户与其在线产品或服务交互产生的数据，并从中获取价值。为了实现这点，数据分析能力将比BI团队更受重视，为企业提供更多的价值。

4. 大数据为王的时刻将要玩转市场决策

Alteryx认为，在2014年，大数据将首次正式登陆市场营销，用于市场营销的大数据技术将在这一年扮演重要角色——影响着广告、产品推销和消费者行为，World Cup及Winter Olympics将是其最大的舞台。

5. 海量的数据将超越数据科学家的意识

Alteryx认为，新型的数据分析需求将超越人力可为，有些情况下大数据技术将堪比成千上万的数据科学家。该公司预测，这将会毫无疑问的拉低数据科学家薪酬。

6. 物联网将进军网络

　 IEEE的专业协会认为，2014年，可识别事物将无缝的连接到信息网络，实现真正意义上的Web of Things。The Web of Things将会充分利用移动设备和传感器的监控能力，增强现实世界中的物体与Web副本之间的协同性。

The Web of Things将会生成大量与现实世界相关的数据，因而会需求智能化的解决方案在现实世界与相对应的数字世界资源之间赋予连接性、网际互连和相关性。

7. 从大数据到海量数据

数据的体积、速度和类型（volume、velocity和variety）在2014年将会继续呈指数级增长，因此需要更简单的分析工具来驾驭这些“数据洪流”。

　　IEEE称，“不止是3个V让大数据成了非常难以制服的老虎，数据科学家及行业所需简单工具也是个难题，许多行业尚无独立提取数据价值的能力。当前已出现的海量数据时代更需求数据管理和分析上新的范式和实践。2014年，这个领域将上演群雄争霸。”

8. R语言将取代传统SAS解决方案

Alteryx认为，基于R编程语言的分析将数据科学家“御用”模式，这种分析在2014年将成为主流，将替代传统的SAS及SPSS模式。Alteryx说道：“超过200万用户和300万的分析师都在寻找更好的解决方案，R恰逢其时。”

9. Hadoop将增加实时特性

SQL-on-Hadoop供应商Splice Machine共同创始人兼CEO Monte Zweben指出，未来1年建立在Hadoop平台上的交互式应用程序将呈爆发式增长，其中包括Web应用、移动应用和社交应用，人们可以与之进行实时的交互。

　　 Zweben说道：“2014将带来实时大数据应用程序平台，企业将不会只能像当下一样分析历史数据，你将有能力分析5分钟，甚至是1分钟之内的数据；企业将拥有交互式应用程序，以便实时的制定决策。”

10. Hadoop将得到企业级强化

Splice Machine的Zweben说：“毋庸置疑，Hadoop是个了不起的平台，但是仍然有许多工作要做。”

　　他认为，在2014，你将看到Hadoop向安全、运营管理、资源管理及多站点响应方向发展。Zweben补充道：“你将看到所有的企业级需求，我认为这些将是未来主要的焦点。”

11. 2014年底，至少有一家NoSQL IPO

大数据及云环境安全解决方案Gazzang董事长兼CEO Larry Warnock预测，在2014，至少有一家Hadoop或者NoSQL供应商会IPO，这标志着大数据平台已被广泛认可。

　　Warnock说道：“我不会去预测哪家会IPO，但是至少会有一家Hadoop或NoSQL供应商IPO。通过Wikibon了解到，在2012年，NoSQL软件和服务创造了2.86亿美元的税收，而在2017年，这个数据被预测为18.25亿。商场被不断增长的企业需求推动，他们需要灵活、可扩展及负担得起的数据管理解决方案，为新时代的云及大数据设计。”

12. 一个新的分析堆栈将诞生

　Alteryx 预测，2014年，将出现一个新的数据及分析堆栈，为数据库、分析、可视化提供新的解决方案，这将直接威胁到传统的供应商巨头，而这些供应商也会在匆忙中推出新的解决方案。

二、大数据基础概论简介

2.1大数据（Big Data）是指那些超过传统数据库系统处理能力的数据。它的数据规模和转输速度要求很高，或者其结构不适合原本的数据库系统。为了获取大数据中的价值，我们必须选择另一种方式来处理它。
    数据中隐藏着有价值的模式和信息，在以往需要相当的时间和成本才能提取这些信息。如沃尔玛或谷歌这类领先企业都要付高昂的代价才能从大数据中挖掘信息。而当今的各种资源，如硬件、云架构和开源软件使得大数据的处理更为方便和廉价。即使是在车库中创业的公司也可以用较低的价格租用云服务时间了。
   对于企业组织来讲，大数据的价值体现在两个方面：分析使用和二次开发。通过大数据创造出新产品和服务的商业行为并非巧合，谷歌、雅虎、亚马逊和Facebook，它们都是大数据时代的创新者。
2.2大数据的特征
    作为一个包罗万象的术语，“大数据”相当的含糊不清。同样的，“云”这个概念也涵盖了不同的技术。大数据系统的输入端可以列一个极长的表，包括了社会网络、Web服务器日志、流量传感器、卫星图像、广播音频流、银行交易、摇滚音乐MP3、网页的内容、政府文件扫描、GPS路线、金融市场数据等等。而这些数据本质上并非是相同的东西。
     IBM公司把大数据的特征概括成三个“V”，也就是规模（Volume），快速（Velocity）和多样（Variety）。这三个方面是观察数据本质和软件处理平台的有用视角。
几家典型公司的大数据：

百度拥有中国最大的消费者行为数据库，覆盖95%的中国网民，日均响应

50亿次搜索请求，搜索市场占比达80%，百度联盟，60万联盟合作伙伴每天有50亿次的日均行为产生，这些构成了巨大数据的基础。变现模式：推百度指数，并在百度指数的基础上建立百度风云榜；百度数据中心，研究机构的方式网络搜索咨询报告。广告站长和开发组提供的百度（移动）统计以及相关的开发者服务工具

腾讯则超过7.836亿QQ活跃账户，4.69亿微博用户和超过1亿的视频用户、5.976亿QQ空间用户，微信、手机管家等带来的移动用户也超过了4亿，海外用户快超过1亿。除却海量用户，庞大服务矩阵，带来数据的非结构化、碎片化、海量化。

变现工具只有：腾讯分析和腾讯罗盘马云宣称平台、金融和数据是阿里未来的三大战略方向。阿里未来本质上是一个数据公司，电商越来越离不开数据，

金融的核心也是数据。、KPI系统、数据门户、活动直播间、卖家云图、页面点击、黄金策；给客户提供的数据魔方、无量神针和类目360、淘宝指数最具备划时代意义的2012年阿里又推出了聚石塔产品可提供数据存储、数据计算两类服务处理的订单超过天猫总量的20%，比平时增长20倍。阿里金融是大数据衍生产品开发的一个范例。阿里由于电商特性他在应用上走得是最远的。
2.3规模（Volume）
    能处理大数据所获得的好处在于能对大数据进行分析。更多的数据强于更好的模型，如果你的预测模型可以考虑到300个变量而非仅仅6个变量，其预测能力多半能更为准确。
    大数据的规模是传统IT架构所面临的直接挑战。它要求可扩展的存储和分布式的方法来完成查询。许多公司已经拥有大量的存档数据，但却没有能力来处理它。传统的关系数据库无法处理大数据的规模，目前可选择的方法包括大规模并行处理架构、数据仓库、或类似Greenplum的数据库、以及Apache Hadoop解决方案。其中，数据仓库比较适合于预先确定的数据结构和变化缓慢的数据。而Apache Hadoop则没有这些限制。
     Hadoop的核心是一个分布在多个服务器上的计算平台。它作为开放源码首先由雅虎开发并发布，它是谷歌所提出的MapReduce方法的实现。 Hadoop的MapReduce包括了两个阶段：向多个服务器和操作系统分发数据，即map阶段，然后重组并行计算结果，即reduce阶段。
     Hadoop利用自身的分布式文件系统（HDFS）来存储数据，这使得多个计算节点能获取数据。一个典型的Hadoop使用模式包括三个阶段：加载数据到HDFS、MapReduce操作、从HDFS检索结果。这个过程本质上是一个批处理，适合于分析或者是非交互式的计算任务。正因为如此，Hadoop本身不是一个数据库或数据仓库的解决方案，而是分析的辅助。最知名的Hadoop的用户之一是Facebook。它的MySQL数据库存储核心数据。然后再反映到Hadoop系统进行计算。计算结果会再次转移到MySQL，以提供给用户的页面使用。

三、大数据七点总结：

一种思维：数据思维

两大推动：极致体验、长尾效应

三大趋势：泛互联网、垂直一体化、数据是资产。

四大步骤：入口、流量、数据、变现

五大标准：活性、颗粒度、维度时空、情绪

六大模式：数据、信息、咨询、媒体、数据使能、技术

七字心决：专注、极致、口碑、快

四、大数据进修学习内容模块及发展方向

4.1 Linux学习知识概要

（安装） Linux简介

Linux与Unix区别

Linux安装

Linux常用命令与Unix异同

Linux文件系统

Linux用户及用户组管理

实验：

1）安装，

2）常用命令的使用

3）常用服务配置

4）用户配置

5）网络管理

（管理） Linux系统性能分析

Linux网络管理及配置

Linux安全控制

Linux存储管理

Linux系统服务

目标：掌握Linux基本操作和管理知识

4.2 Hadoop分布式计算学习

目标：掌握MapReduce程序开发及Hadoop集群运维知识

（架构原理）大数据时代及Hadoop简介

Hadoop集群安装部署

HDFS部分

HDFS原理和体系结构

访问HDFS

HDFS常用Java API详解

HDFS中的重要文件存储结构

HDFS数据读写原理

（实验）:

部署Hadoop集群

编写简单和复杂的MapReduce程序

元数据备份及管理

使用Ganglia、Nagios对Hadoop进行监控

使用dfsadmin和fsck对Hadoop集群进行管理

掌握Hadoop集群日常维护

1、datanode节点磁盘损坏故障恢复

2、datanode节点硬件升级替换

3、datanode节点故障宕机恢复

4、datanode节点磁盘损坏处理

5、namenode高可用方案实战

6、namenode故障宕机后的metadata数据恢复

7、namenode主备节点热切换

要求具备基本的Hadoop知识（开发维护）

HDFS数据压缩机制

HDFS 元数据管理方法与技术

HDFS数据块存储管理方法与技术

HDFS HA

MapReduce部分

MapRedcue工作原理

MapReduce组件详解

MapReduce Job执行流程介绍

Streaming编程

MapReduce任务调度

（Hadoop的最新框架原理）

什么是Hadoop2.0

Hadoop2.0与1.0对比

YARN原理和基本架构

YARN安装部署

运作机制

（Hadoop运维监控） Hadoop运维

Hadoop运维管理，常见故障

openTSDB实战

MapReduce作业调优

案例

讨论

4.3大数据存储（Hbase）学习

目标：掌握HBase主要功能，熟练使用API开发应用程序，掌握集群运维方法

（HBase简介和架构） NoSql数据库与关系数据库的对比

HBase基本概念

HBase应用场景

HBase架构和核心模块介绍

HBase存储逻辑结构介绍

集群下安装部署HBase

启动HBase，启动顺序

测试启动多种方法

实验：

部署HBase集群

通过Java程序管理表

通过Java程序增删改查数据

编写过滤器精细控制数据

编写2种协处理器程序

HBase表管理

HBase Region转移和备份

Split&Compact策略

regionserver日常维护

master日常维护

（HBase核心知识点）基本方法：Get/Put/Scan/Delete

列式存储核心：LSM

日志系统：WAL

底层存储：HFile

复制、备份：Replication

过渡期：RIT

分裂、合并：Split/Compact

负载均衡：Load Balance

批量记载：bulk load

监控系统：OpenTSDB

主键设计：key design

二级索引：secondary index

协处理器：Coprocessors

过滤器：bloomfilter

版本：version

（Hbase管理与案例）集群管理和监控

性能优化

native java接口

shell client

thrift接口

案例（需求剖析、架构设计）

（Nosql技术发展）主流NoSql产品简介:Cassandra、

MongoDB、CouchDB、Redis

NoSql产品优缺点比较、性能比较

4.4大数据存储（Hive数据库）学习

（原理）Hive概念

Hive架构原理

如何利用Hive用户接口提交作业

Hive主要配置详解目标：掌握HQL语法及调优方法

实验：使用HQL语句和自定义函数实现简单和复杂的数据统计

（使用）

HiveQL语法讲解及使用

编写UDF及UDAF、UDTF函数

Hive与HBase的整合

HiveQL优化与执行计划

Hive日志管理

hive输入lzo文件格式时会产生中文乱码

分隔符入库问题（如何定制分隔符入库，比如€）

（管理和优化）

多级存储迁移（数据生命周期）

如何找出低效的hive任务

使用Hive分区策略

HIVE查询中分区剪裁失效案例分析

使用Lzo压缩优化数据存储容量

CPU与IO配比

编写Hive自定义MapReduce脚本优化查询

Hive数据倾斜和查询性能优化

解决hive数据倾斜的多个案例分析

Mapjoin解决数据倾斜

优化小文件过多的sql

介绍一下大表之间join或group by 或 distinct产生倾斜解决的案例

使用Sqoop工作原理和进行数据分析

使用oozie配置工作流

编写程序注意规范

4.5大数据相关技术Pig学习

Pig简介

安装和运行Pig

Pig Latin详解

命令行使用以及配置选项介绍

目标：掌握Pig Latin使用方法

4.6 ZooKeeper协调管理学习

目标：了解ZooKeeper在Hadoop系统中的作用，掌握基本运维知识

概念介绍和基本原理

集群安装部署

Zookeeper Server角色

实验：搭建ZooKeeper集群

Zookeeper Server选举、同步和工作流程

Leader的工作流程

Follower的工作流程

Zookeeper的扩展

Zookeeper的应用场景

Zookeeper性能调优

数据一致性与Paxos算法

案例