打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
如何构建企业级大数据平台,发挥数据大价值?

最近几年,大数据一派轰轰烈烈之势,按现在流行的话讲,“在外行走江湖,不侃两句大数据都不好意思出来混”。就算不是IT圈内的人,也能够从他们嘴里听到大数据感叹之言,感叹科技给生活带来的变化。

在Gartner发布的2015新兴技术成熟度曲线图来看,Big data脱离了技术曲线。

离开曲线的技术并非不重要,而是不再“新兴”,已经逐渐融入人们的生活。大数据没有在2015年曲线上出现,这一改变表明对大数据概念的炒作进入尾声,企业将会更加关注于如何应用,实时的数据分析能力日益成为核心竞争力。在IT发展较快的互联网行业,大数据已经实实在在的落到实处,逐步发挥作用。在传统行业,大数据也开始逐步实践探索,发挥传统企业数据价值。

下面我们从以下几方面来简单聊聊大数据:

  • 大数据是什么

  • 大数据价值点在哪里

  • 大数据平台该如何建设

  • 大数据怎么发挥大价值

一、大数据是什么

说到大数据,自然要提到大数据的概念。但具体什么是大数据,行业里也是各说不一。狭义上来讲,大数据就是巨量数据,极大量的数据。但究竟是“多大”,才叫大数据呢?也是未有一个统一的说法,一般来说,10T量级的数据量,就可以称之为“大”数据了。而广义上的大数据,更多是指包括数据本身在内的,一整套数据处理分析框架。纵观众多的“何为大数据”,研究机构Gartner给的定义还是比较不错的:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量的、高速增长率和多样化的信息资产。

这个定义还是比较好的,区分了纯数据量论,也比较符合实际项目落地的情况。比如一个客户终端偏好分析,如果在现有数据、分析模型上,已经可以99%的机会准确分析出来,那再增加大量的数据去分析,这是毫无意义的,可能由于噪音数据的增加,准确率更低也是可能的,就不应该归入大数据的范畴,用大数据的方式去处理。目标数据要重质,而不是单纯的量,数据的多维度,往往比数据量更具备价值。

二、大数据价值点在哪里

美国麦肯锡全球研究院发布的研究报告《大数据:下一个创新、竞争和生产力的前沿》,指出“大数据时代已经到来”,数据正成为与物质资产和人力资本相提并论的重要生产要素,是企业的重要资产。

那大数据究竟有多少价值?又怎么来体现价值?

大数据的范围比较广,可以是一个有限的集合,比如政府、企业所掌握的私有的数据库,也可以是一个无限的集合,比如社交网站、博客、论坛等等上面的信息。大数据技术就是从各种各样的,大量的数据中,快速获得有价值信息的技术,包括数据采集、存储、管理、分析挖掘、可视化等等。大数据(技术)的价值,可从以下两方面来看:

  • 从能力层面看

从大数据的能力角度,主要有数据的存储、处理、查询三个方面,如下图:

n 数据存储能力

数据的存储问题,一直困扰着信息系统的建设。数据量小的时候,可能不会成为一个关注的问题,毕竟存储介质也是符合摩尔定律的,价格月来月低,容量越来越大。但是对于超大量的数据,高昂的数据存储成本,也是低价值密度数据被抛弃的原因。随着技术的驱动,分布式集群、x86的发展,hadoop技术的逐渐成熟,给大数据的存储提供了生存的空间。大数据技术的推动,使数据得以存储下来,具备了大数据的存储能力,为数据价值的发挥,奠定了坚实的基础。

n数据处理能力

数据存储下来,就能发挥价值吗?远远不是。以前效率低下的、高成本的数据处理能力,是阻碍数据价值发挥的重要因素。不能在有效时间内对数据进行处理,数据就没有意义了。大数据技术的发展,大规模分布处理技术、spark内存技术的成熟,使数据能够有效处理,有了真正发挥价值的空间。

n 数据查询能力

数据处理能力的提升,能够有效处理数据,缩小数据的规模,使数据价值得以发挥。但是对于需要直接对超大量数据进行查询,传统的很多存储系统是无法支撑的。Nosql技术、spark等大数据新技术、新框架的出现,使大数据能够直接进行查询,有效支撑业务的发展。数据查询能力的提升,进一步加速了数据价值的体现。

  • 从价值体现层面看

大数据有能力存储了,也能够处理、查询了,但数据的价值,归根到底只有使用,才能把数据的价值发挥出来。从数据的使用方式,数据一般可以分为以下两种:

ü 对内:对企业发展进行决策支撑,帮助企业更高效制定策略;支持一线营销管理工作,支持对目标客户进行精准营销,拓展业务。

ü 对外:开拓数据的长尾效应,对数据进行整合、能力抽取,与合作伙伴进行合作,提供数据、能力,发挥数据外在价值。

以传统运营商为例,数据价值发挥的方式如下:

三、大数据平台该如何建设

大数据时代,数据的价值不言而喻,数据已经成为企业重要的信息资产。数据的存储也好,数据的整合加工也罢,归根到底是为了使用数据。那怎么才能有效的发挥数据的价值呢?

在这之前,我们先来看看大数据与BI。在大数据之前,BI就已经存在很久了,简单把大数据等同于BI,明显是不恰当的。但两者又是紧密关联的,相辅相成的。BI是达成业务管理的应用工具,没有BI,大数据就没有了价值转化的工具,就无法把数据的价值呈现给用户,也就无法有效地支撑企业经营管理决策;大数据则是基础,没有大数据,BI就失去了存在的基础,没有办法快速、实时、高效地处理数据,支撑应用。 所以,数据的价值发挥,大数据平台的建设,必然是囊括了大数据处理与BI应用分析建设的。

说到大数据价值,那我们再来看看数据使用金字塔模型。从数据的使用角度来看,数据基本有以下使用方式:

自上而下,可以看到,对数据的要求是不一样的:

数据量越来越大,维度越来越多。

交互难度越来越大。

技术难度越来越大。

以人为主,逐步向机器为主。

用户专业程度逐步提升,门槛越来越高。

企业对数据、效率要求的逐步提高,也给大数据提供了展现能力的平台。企业构建大数据平台,归根到底是构建企业的数据资产运营中心,发挥数据的价值,支撑企业的发展。整体方案思路如下:

建设企业的基础数据中心,构建企业统一的数据存储体系,统一进行数据建模,为数据的价值呈现奠定基础。同时数据处理能力下沉,建设集中的数据处理中心,提供强大的数据处理能力;通过统一的数据管理监控体系,保障系统的稳定运行。有了数据基础,构建统一的BI应用中心,满足业务需求,体现数据价值。

提到大数据,无可避免的就会提到hadoop。尽管大数据并不等同于hadoop,但hadoop确实是最热门的大数据技术。下面我们以最常用的混搭架构,来看一下大数据平台可以怎么来搭建,支撑企业应用:

通过Kafka作为统一采集平台的消息管理层,灵活的对接、适配各种数据源采集(如集成flume),提供灵活、可配置的数据采集能力。

利用spark和hadoop技术,构建大数据平台最为核心的基础数据的存储、处理能力中心,提供强大的数据处理能力,满足数据的交互需求。同时通过sparkstreaming,可以有效满足企业实时数据的要求,构建企业发展的实时指标体系。

同时为了更好的满足的数据获取需求,通过RDBMS,提供企业高度汇总的统计数据,满足企业常规的统计报表需求,降低使用门槛。对大数据明细查询需求,则通过构建HBase集群,提供大数据快速查询能力,满足对大数据的查询获取需求。

技术只是承载业务的一种手段,无论采用哪种技术手段,归根到底是为了实现数据的价值。只有根据企业实际的发展需求,透彻分析企业的数据形态,才能更好的选择符合企业发展的技术架构,才能最大限度的满足企业发展要求,发挥数据价值,支撑企业决策,提高企业的综合竞争能力。

四、大数据怎么发挥大价值

上面我们已经谈到了大数据是什么,怎么构建大数据系统,那么,是不是把大数据平台搭建起来,就可以发挥大数据的价值?就一劳永逸了吗?

显然,并不是!

相对于以前的数据分析系统,大数据系统,有其特殊性。一般而言,大数据系统工程都比较大,更多的数据,更多的需求,更高的灵活性,决定了大数据更应该以共享平台的方式来建设,松耦合共享的方式来支撑应用。

大数据平台是一个完整、复杂的体系工程,包括了基础技术平台的搭建、能力模型的组织、平台的运营管理、数据模型的管控、平台的应用建设以及其它配套资源的协调。一个平台要持续具备高效的能力输出、发挥平台价值,需要一个长期的、多方面共同协作配合的过程。如下图所示:

(1) 技术平台

技术平台是发挥大数据价值的核心基础,只有构建了合适的大数据技术平台,才能进行数据采集、数据存储、数据处理,才能发挥大数据的价值。目前在大数据技术上,比较流行、发展快速的,也就是大家比较熟悉的hadoop架构体系了,其开源、免费属性,使其在最近几年,得到了飞速的发展,开始在互联网企业、大型的传统企业落地生根,发挥价值。

由于Hadoop的开源免费属性,大家都可以去下载项目,搭建系统。在这里需要说明一下的是,仅仅把各个组件部署串联起来,把流程走通,测试个HellWorld,那仅仅只是个Demo,和让hadoop真正在商业上24小时不间断稳定用起来,是完全不同,不是一个层次上的事。

除了组件的实施构建,还需要考虑很多方面,如:

  • 在最开始规划时,需要根据业务情况,进行技术选型。如是否存在大数据量查询?是否有实时数据需求?查询复杂度情况等等。不同的业务特点,会有不同的技术支撑。


  • 在硬件、网络方面,需要考虑时优先内存处理,还是磁盘处理?网络需要多大?千兆?万兆?怎么设计、分配?


  • 在安全控制方面,要设计如何进行安全认证;如何排除伪节点攻击;如何更好的进行用户管理、操作隔离等。

  • …………

(2)能力模型

大数据平台作为大数据中心,需要统一对外提供数据,支撑应用的百花齐放。共享模型,是大数据平台最好的能力承载介质,可以有效支撑数据需求。统一的共享模型,可以降低系统藕合度,提高需求的支撑效率,同时还能够减少数据冗余,优化数据支撑能力。

(3) 运营管理

大数据平台初步搭建起来后,进入了日常运营管理阶段,持续发挥价值。很多分析系统,往往在一开始都只是提供基本的业务需求,但是需求随着时间的推移,是不断增加,更加复杂的。要想真正发挥大数据平台的价值,平台在日常运营中,怎么更好更快的满足业务需求,是一个需要重视的关键点。在共享模式中,一般平台运营流程如下:

(4)模型管控

一个平台要发挥价值,模型设计是关键。模型的质量,直接影响应用的满足,平台本身的稳定高效。前期的模型设计再好,如果后期没有配套的模型管控流程,没有切实落地执行,模型就会慢慢变得臃肿,杂乱,效率低下,会导致整个平台的失败。一般模型管控可以包含模型的管理、评审、实施、优化等内容。

(5) 应用建设

应用是数据价值体现的窗口。数据要发挥价值,最直接的方式就是通过应用展现出来,直观,可视。根据数据的使用方式,一般可以将数据的呈现分为常规报表和专题分析。常规报表是根据企业日常运营需要,将数据做常态化展现,相对固定。专题分析一般是根据具体的专项需求,进行专题化的分析、建模、挖掘展现,具有很专业化解决问题的倾向,比如支撑某个营销策划,促进销售,增长用户;或者针对旅游季节,进行旅游专题分析支撑等。可以在短期内看到效果,具有一定的时效性。

大数据时代挑战与机遇并存,正确处理好大数据,绝对是符合行业、企业利益的。根据IDC的研究,从2005年到2012年,全球的数据量翻了27番,约达到2.5ZB,其中仅有25%的数据是有用的,仅有3%的数据贴有标签能被使用,仅有0.5%的数据被用于分析。大量的数据被闲置,被丢弃,价值被埋没。随着技术的不断发展,数据价值的不断体现,大数据将会成为推动未来企业发展的重要引擎。BAT知道,全世界也知道。大数据之路,任重而道远。

作者介绍 李剑杰

  • 新炬网络架构师,资深数据资产管理、大数据专家,10年数据资产管理经验。

  • 曾参与多个移动、联通、银行、烟草数据资产管理项目,对数据资产有丰富的项目规划管理、落地实施经验。

近期热文(点击标题可阅读全文)

近期活动:

Gdevops全球敏捷运维峰会北京站

峰会官网:www.gdevops.com

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
数据中台演进的四个阶段
甲骨文大数据创新推动数字化转型
企业级大数据应用潜力无限
工业数据治理和数据资源化思考与实践
大数据时代企业需要什么样的人才?
数据服务业务是未来趋势,荣之联刚刚发布的大数据平台DataZoo有啥亮点?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服