前言绪论
一、纵观大数据发展前景
1. 人们不再止步于大数据的谈论
2014年,大数据止于说的情况将发生改变,人们将致力于从中获益,所有大数据的炒作也将“烟消云散”。从Gainsight了解到,大数据本身也将成为桌面上的筹码,Gainsight在其IaaS平台中利用大数据分析被其称之为“customer success management”的服务。Gainsight认为,在2014年,每家云应用程序提供商都将会让其后端基础设施支持大数据。
2. Hadoop在大中型企业普及应用将成为企业的关键组件
Hadoop将普及,大数据也不会再继续止步于云服务。Alteryx认为,2014年,Hadoop的适用场景将超越批处理和存储,将成为企业数据架构中通用的核心组件,这意味着数据分析将继续成为大数据的首要用例。
3. 企业将更加钟情于用户数据
从Gainsight了解到,各个机构将对用户数据充满热情,企业将充分利用客户与其在线产品或服务交互产生的数据,并从中获取价值。为了实现这点,数据分析能力将比BI团队更受重视,为企业提供更多的价值。
4. 大数据为王的时刻将要玩转市场决策
Alteryx认为,在2014年,大数据将首次正式登陆市场营销,用于市场营销的大数据技术将在这一年扮演重要角色——影响着广告、产品推销和消费者行为,World Cup及Winter Olympics将是其最大的舞台。
5. 海量的数据将超越数据科学家的意识
Alteryx认为,新型的数据分析需求将超越人力可为,有些情况下大数据技术将堪比成千上万的数据科学家。该公司预测,这将会毫无疑问的拉低数据科学家薪酬。
6. 物联网将进军网络
IEEE的专业协会认为,2014年,可识别事物将无缝的连接到信息网络,实现真正意义上的Web of Things。The Web of Things将会充分利用移动设备和传感器的监控能力,增强现实世界中的物体与Web副本之间的协同性。
The Web of Things将会生成大量与现实世界相关的数据,因而会需求智能化的解决方案在现实世界与相对应的数字世界资源之间赋予连接性、网际互连和相关性。
7. 从大数据到海量数据
数据的体积、速度和类型(volume、velocity和variety)在2014年将会继续呈指数级增长,因此需要更简单的分析工具来驾驭这些“数据洪流”。
IEEE称,“不止是3个V让大数据成了非常难以制服的老虎,数据科学家及行业所需简单工具也是个难题,许多行业尚无独立提取数据价值的能力。当前已出现的海量数据时代更需求数据管理和分析上新的范式和实践。2014年,这个领域将上演群雄争霸。”
8. R语言将取代传统SAS解决方案
Alteryx认为,基于R编程语言的分析将数据科学家“御用”模式,这种分析在2014年将成为主流,将替代传统的SAS及SPSS模式。Alteryx说道:“超过200万用户和300万的分析师都在寻找更好的解决方案,R恰逢其时。”
9. Hadoop将增加实时特性
SQL-on-Hadoop供应商Splice Machine共同创始人兼CEO Monte Zweben指出,未来1年建立在Hadoop平台上的交互式应用程序将呈爆发式增长,其中包括Web应用、移动应用和社交应用,人们可以与之进行实时的交互。
Zweben说道:“2014将带来实时大数据应用程序平台,企业将不会只能像当下一样分析历史数据,你将有能力分析5分钟,甚至是1分钟之内的数据;企业将拥有交互式应用程序,以便实时的制定决策。”
10. Hadoop将得到企业级强化
Splice Machine的Zweben说:“毋庸置疑,Hadoop是个了不起的平台,但是仍然有许多工作要做。”
他认为,在2014,你将看到Hadoop向安全、运营管理、资源管理及多站点响应方向发展。Zweben补充道:“你将看到所有的企业级需求,我认为这些将是未来主要的焦点。”
11. 2014年底,至少有一家NoSQL IPO
大数据及云环境安全解决方案Gazzang董事长兼CEO Larry Warnock预测,在2014,至少有一家Hadoop或者NoSQL供应商会IPO,这标志着大数据平台已被广泛认可。
Warnock说道:“我不会去预测哪家会IPO,但是至少会有一家Hadoop或NoSQL供应商IPO。通过Wikibon了解到,在2012年,NoSQL软件和服务创造了2.86亿美元的税收,而在2017年,这个数据被预测为18.25亿。商场被不断增长的企业需求推动,他们需要灵活、可扩展及负担得起的数据管理解决方案,为新时代的云及大数据设计。”
12. 一个新的分析堆栈将诞生
Alteryx 预测,2014年,将出现一个新的数据及分析堆栈,为数据库、分析、可视化提供新的解决方案,这将直接威胁到传统的供应商巨头,而这些供应商也会在匆忙中推出新的解决方案。
二、大数据基础概论简介
2.1大数据(Big Data)是指那些超过传统数据库系统处理能力的数据。它的数据规模和转输速度要求很高,或者其结构不适合原本的数据库系统。为了获取大数据中的价值,我们必须选择另一种方式来处理它。
数据中隐藏着有价值的模式和信息,在以往需要相当的时间和成本才能提取这些信息。如沃尔玛或谷歌这类领先企业都要付高昂的代价才能从大数据中挖掘信息。而当今的各种资源,如硬件、云架构和开源软件使得大数据的处理更为方便和廉价。即使是在车库中创业的公司也可以用较低的价格租用云服务时间了。
对于企业组织来讲,大数据的价值体现在两个方面:分析使用和二次开发。通过大数据创造出新产品和服务的商业行为并非巧合,谷歌、雅虎、亚马逊和Facebook,它们都是大数据时代的创新者。
2.2大数据的特征
作为一个包罗万象的术语,“大数据”相当的含糊不清。同样的,“云”这个概念也涵盖了不同的技术。大数据系统的输入端可以列一个极长的表,包括了社会网络、Web服务器日志、流量传感器、卫星图像、广播音频流、银行交易、摇滚音乐MP3、网页的内容、政府文件扫描、GPS路线、金融市场数据等等。而这些数据本质上并非是相同的东西。
IBM公司把大数据的特征概括成三个“V”,也就是规模(Volume),快速(Velocity)和多样(Variety)。这三个方面是观察数据本质和软件处理平台的有用视角。
几家典型公司的大数据:
百度拥有中国最大的消费者行为数据库,覆盖95%的中国网民,日均响应
50亿次搜索请求,搜索市场占比达80%,百度联盟,60万联盟合作伙伴每天有50亿次的日均行为产生,这些构成了巨大数据的基础。变现模式:推百度指数,并在百度指数的基础上建立百度风云榜;百度数据中心,研究机构的方式网络搜索咨询报告。广告站长和开发组提供的百度(移动)统计以及相关的开发者服务工具
腾讯则超过7.836亿QQ活跃账户,4.69亿微博用户和超过1亿的视频用户、5.976亿QQ空间用户,微信、手机管家等带来的移动用户也超过了4亿,海外用户快超过1亿。除却海量用户,庞大服务矩阵,带来数据的非结构化、碎片化、海量化。
变现工具只有:腾讯分析和腾讯罗盘马云宣称平台、金融和数据是阿里未来的三大战略方向。阿里未来本质上是一个数据公司,电商越来越离不开数据,
金融的核心也是数据。、KPI系统、数据门户、活动直播间、卖家云图、页面点击、黄金策;给客户提供的数据魔方、无量神针和类目360、淘宝指数最具备划时代意义的2012年阿里又推出了聚石塔产品可提供数据存储、数据计算两类服务处理的订单超过天猫总量的20%,比平时增长20倍。阿里金融是大数据衍生产品开发的一个范例。阿里由于电商特性他在应用上走得是最远的。
2.3规模(Volume)
能处理大数据所获得的好处在于能对大数据进行分析。更多的数据强于更好的模型,如果你的预测模型可以考虑到300个变量而非仅仅6个变量,其预测能力多半能更为准确。
大数据的规模是传统IT架构所面临的直接挑战。它要求可扩展的存储和分布式的方法来完成查询。许多公司已经拥有大量的存档数据,但却没有能力来处理它。传统的关系数据库无法处理大数据的规模,目前可选择的方法包括大规模并行处理架构、数据仓库、或类似Greenplum的数据库、以及Apache Hadoop解决方案。其中,数据仓库比较适合于预先确定的数据结构和变化缓慢的数据。而Apache Hadoop则没有这些限制。
Hadoop的核心是一个分布在多个服务器上的计算平台。它作为开放源码首先由雅虎开发并发布,它是谷歌所提出的MapReduce方法的实现。 Hadoop的MapReduce包括了两个阶段:向多个服务器和操作系统分发数据,即map阶段,然后重组并行计算结果,即reduce阶段。
Hadoop利用自身的分布式文件系统(HDFS)来存储数据,这使得多个计算节点能获取数据。一个典型的Hadoop使用模式包括三个阶段:加载数据到HDFS、MapReduce操作、从HDFS检索结果。这个过程本质上是一个批处理,适合于分析或者是非交互式的计算任务。正因为如此,Hadoop本身不是一个数据库或数据仓库的解决方案,而是分析的辅助。最知名的Hadoop的用户之一是Facebook。它的MySQL数据库存储核心数据。然后再反映到Hadoop系统进行计算。计算结果会再次转移到MySQL,以提供给用户的页面使用。
三、大数据七点总结:
一种思维:数据思维
两大推动:极致体验、长尾效应
三大趋势:泛互联网、垂直一体化、数据是资产。
四大步骤:入口、流量、数据、变现
五大标准:活性、颗粒度、维度时空、情绪
六大模式:数据、信息、咨询、媒体、数据使能、技术
七字心决:专注、极致、口碑、快
四、大数据进修学习内容模块及发展方向
4.1 Linux学习知识概要
(安装) Linux简介
Linux与Unix区别
Linux安装
Linux常用命令与Unix异同
Linux文件系统
Linux用户及用户组管理
实验:
1)安装,
2)常用命令的使用
3)常用服务配置
4)用户配置
5)网络管理
(管理) Linux系统性能分析
Linux网络管理及配置
Linux安全控制
Linux存储管理
Linux系统服务
目标:掌握Linux基本操作和管理知识
4.2 Hadoop分布式计算学习
目标:掌握MapReduce程序开发及Hadoop集群运维知识
(架构原理)大数据时代及Hadoop简介
Hadoop集群安装部署
HDFS部分
HDFS原理和体系结构
访问HDFS
HDFS常用Java API详解
HDFS中的重要文件存储结构
HDFS数据读写原理
(实验):
部署Hadoop集群
编写简单和复杂的MapReduce程序
元数据备份及管理
使用Ganglia、Nagios对Hadoop进行监控
使用dfsadmin和fsck对Hadoop集群进行管理
掌握Hadoop集群日常维护
1、datanode节点磁盘损坏故障恢复
2、datanode节点硬件升级替换
3、datanode节点故障宕机恢复
4、datanode节点磁盘损坏处理
5、namenode高可用方案实战
6、namenode故障宕机后的metadata数据恢复
7、namenode主备节点热切换
要求具备基本的Hadoop知识(开发维护)
HDFS数据压缩机制
HDFS 元数据管理方法与技术
HDFS数据块存储管理方法与技术
HDFS HA
MapReduce部分
MapRedcue工作原理
MapReduce组件详解
MapReduce Job执行流程介绍
Streaming编程
MapReduce任务调度
(Hadoop的最新框架原理)
什么是Hadoop2.0
Hadoop2.0与1.0对比
YARN原理和基本架构
YARN安装部署
运作机制
(Hadoop运维监控) Hadoop运维
Hadoop运维管理,常见故障
openTSDB实战
MapReduce作业调优
案例
讨论
4.3大数据存储(Hbase)学习
目标:掌握HBase主要功能,熟练使用API开发应用程序,掌握集群运维方法
(HBase简介和架构) NoSql数据库与关系数据库的对比
HBase基本概念
HBase应用场景
HBase架构和核心模块介绍
HBase存储逻辑结构介绍
集群下安装部署HBase
启动HBase,启动顺序
测试启动多种方法
实验:
部署HBase集群
通过Java程序管理表
通过Java程序增删改查数据
编写过滤器精细控制数据
编写2种协处理器程序
HBase表管理
HBase Region转移和备份
Split&Compact策略
regionserver日常维护
master日常维护
(HBase核心知识点) 基本方法:Get/Put/Scan/Delete
列式存储核心:LSM
日志系统:WAL
底层存储:HFile
复制、备份:Replication
过渡期:RIT
分裂、合并:Split/Compact
负载均衡:Load Balance
批量记载:bulk load
监控系统:OpenTSDB
主键设计:key design
二级索引:secondary index
协处理器:Coprocessors
过滤器:bloomfilter
版本:version
(Hbase管理与案例) 集群管理和监控
性能优化
native java接口
shell client
thrift接口
案例(需求剖析、架构设计)
(Nosql技术发展) 主流NoSql产品简介:Cassandra、
MongoDB、CouchDB、Redis
NoSql产品优缺点比较、性能比较
4.4大数据存储(Hive数据库)学习
(原理)Hive概念
Hive架构原理
如何利用Hive用户接口提交作业
Hive主要配置详解 目标:掌握HQL语法及调优方法
实验:使用HQL语句和自定义函数实现简单和复杂的数据统计
(使用)
HiveQL语法讲解及使用
编写UDF及UDAF、UDTF函数
Hive与HBase的整合
HiveQL优化与执行计划
Hive日志管理
hive输入lzo文件格式时会产生中文乱码
分隔符入库问题(如何定制分隔符入库,比如€)
(管理和优化)
多级存储迁移(数据生命周期)
如何找出低效的hive任务
使用Hive分区策略
HIVE查询中分区剪裁失效案例分析
使用Lzo压缩优化数据存储容量
CPU与IO配比
编写Hive自定义MapReduce脚本优化查询
Hive数据倾斜和查询性能优化
解决hive数据倾斜的多个案例分析
Mapjoin解决数据倾斜
优化小文件过多的sql
介绍一下大表之间join或group by 或 distinct产生倾斜解决的案例
使用Sqoop工作原理和进行数据分析
使用oozie配置工作流
编写程序注意规范
4.5大数据相关技术Pig学习
Pig简介
安装和运行Pig
Pig Latin详解
命令行使用以及配置选项介绍
目标:掌握Pig Latin使用方法
4.6 ZooKeeper协调管理学习
目标:了解ZooKeeper在Hadoop系统中的作用,掌握基本运维知识
概念介绍和基本原理
集群安装部署
Zookeeper Server角色
实验:搭建ZooKeeper集群
Zookeeper Server选举、同步和工作流程
Leader的工作流程
Follower的工作流程
Zookeeper的扩展
Zookeeper的应用场景
Zookeeper性能调优
Zookeeper性能调优
数据一致性与Paxos算法
案例
相关技术
4.7 日志采集系统Flume 学习
目标:掌握Flume Agent和Collector配置 2天 具备Hadoop基础
Flume简介
Flume架构设计
Flume原理及常见配置
Flume部署、安装、配置
Flume常用Source、Sink、Decorator
Flume常用命令
Flume与Hadoop、HBase集成
编写Source、Sink、Decorator插件
主要日志采集产品简介:Chukwa、Scribe、Kafka
各产品之间优缺点比较
4.8Storm实时处理 学习
Storm简介
Storm安装部署
Storm架构及工作原理详解 目标:理解Storm工作原理及应用程序编写 2天
storm组件介绍
Topology介绍
Spout组件
Blot组件
Strom的数据模型
流分组策略
Storm的容错机制
基于storm的开发
自定义Topology
维护管理
案例Topology
4.9 Spark实时处理框架学习
目标:掌握Spark安装配置和开发
Spark的简介
Spark的原理
Spark与hadoop的比较
Spark安装
Mesos介绍
Mesos安装
Spark生态系统介绍
Spark核心概念
—RDD介绍
scala语言学习、Spark源码解析、Spark案例实战
4.10大数据挖掘学习
数据挖掘应用领域:
用户相关: 客户分析,商友圈
推荐:商品,用户,资讯、、、
搜索:标签,排名
营销
文本分析
常用数据挖掘工具:
Weka
Mahout历史沿革、架构和算法介绍
Mahout适用场景介绍
Mahout安装部署
Mahout相关的数据基础知识讲解
常用数据挖掘算法:
聚类
分类
数据挖掘应用案例简述:
反作弊、精准营销;为商品打标签(1):风格标签
数据挖掘算法和相关应用案例
用户研究:个性化应用,对用户分层,聚类,打标注
业务背景
系统架构
kmeans算法介绍和应用
LDA应用
数据挖掘算法和应用案例
商品搜索:标签,商品排名
业务背景
系统架构
分类算法学习和应用
回归算法学习和应用
推荐 :商品推荐系统
业务背景
系统架构
关联算法学习和应用
协同过滤算法学习和应用
内容相关算法学习和应用
五、结论
大数据飞速发展时代如何适应当前企业发展需要、做一个合格的大数据开发工程师、只有不断充实自己、不断努力提升自己的技术专业水平与时俱进!如何充实自己的专业技术水平、提高自己的经验->大数据进修学习思数科技欢迎!
联系客服