基于云计算的大数据技术研究

1 引言

大数据与社会、企业具有很强的相关性，应用也越来越广泛，越来越受到各个部门的重视，以至于许多人认为这个概念对商业、社会来说与互联网一样重要。为什么需要研究大数据，这个问题的答案在于统计科学的基本原理：任何统计分析的先决条件之一是数据，样本数目越高，对给定数据的计算分析越好。因此，更多的数据直接意味着更好的分析，也意味着更好的决策。从组织的角度来看，高效的决策可以对提高组织的运作效率和生产力产生重大的影响。这一概念可以缩小到个体层次，而应用程序和系统的形式更好的分析可以提高个体的生产力和效率。大数据概念能够带来社会和商业领域的革命，并能改变我们的生活方式，就像多年前的互联网一样。

2 大数据的定义

目前大数据的定义有好几种，它们都是基于不同的观点和看法被理解的，目前被广泛接受的定义将其描述为大量增长的、异构的数据。Gartner的Doug Laney以3V模型的形式给出了大数据的第一个定义[1]。该定义中将大数据的特征分为以下几类：体积、种类和增长速度。

为了提高现有定义的技术精确性，人们提出了事务、交互和观察等术语，并将这些术语添加到大数据的定义中[2]。“事务”是用来描述过去已经收集和分析过的数据，“交互”包括从事物和人那里收集数据。这两类数据都遗漏了一组数据，这些数据是自动收集和构成“观察”的数据。Barry Devlin给出了一个类似的、但更清晰的大数据定义，即由机器生成的数据、来源于人类活动产生的数据和过程中介数据来描述[3]。

从业务有效性的角度来看，事务数据与旧数据的实际情况无关，并且在收集和分析的时候，结果变得过时或不相关，相反，需要对新数据进行有效的分析，以提供预测，这些预测可以用来进行对事务及时干预。大数据的生命周期包括数据的生成、获取、存储和处理阶段，如图1所示。

图1 大数据的生命周期

在大数据生命周期的获取这一阶段，将收集生成的原始数据，并将其提供给下一个阶段进行处理。数据采集系统主要包括日志文件、传感系统、web爬虫等等。由于大数据包括不同类型的数据，因此需要一个有效的预处理机制，常用方法包括数据清理、冗余减少和数据集成。庞大的数据量超过了传统技术的存储能力，为了解决这个问题，人民提出了分布式文件系统(DFS)，如谷歌文件系统，Hadoop分布式文件系统或HDFS，还有最新的流行的NoSQL数据库解决方案，比如MongoDB2和像Cassandra3这样的平台。大数据生命周期的存储阶段主要目的是提高数据的可靠性和可用性。大数据生命周期的最后一个阶段是处理，与传统的数据分析一样，大数据分析的目标是从可用数据中提取出有用的信息。为此，人们提出了一些处理分析方法包括聚类、分类等数据分析技术。需要指出的是，传统的处理技术若要适应大数据场景，就应重新设计它们，以便使用类似MapReduce的并行计算技术[4]。

3 大数据处理技术

大数据处理本质上是跨学科的，涉及到数学、统计等学科，很多方法是基于现有技术实现的，如用于特定于应用程序的处理的数学分析、统计、数据挖掘、人工神经网络和计算可视化等技术。

数学分析技术。大多数大数据问题都可以用数学分析技术(如因子分析和相关分析)进行数学建模和求解。因子分析主要用于分析构成大数据的不同元素之间的关系。因此，它可以用来揭示最重要的信息。通过进一步的关系分析，可以使用相关性分析来提取强和弱的依赖关系[5]。生物学、医疗、工程和经济学等领域的应用分析需要使用这些技术。

统计方法是用来收集、组织和解释数据的数学方法，通常用于研究因果关系和相互关系，也是用于派生数字描述的首选技术类别，但是，该标准技术却不能直接用于大数据。为了适应大数据使用的经典技术，可以尝试并行化运算处理，相关研究领域是统计计算、统计学习和数据驱动的统计技术。

数据挖掘允许从原始数据集中提取有用的信息，并以有助于决策的方式显示相同的信息。数据挖掘常用的技术有分类、回归分析、聚类、机器学习和离群检测等。为了分析事物中不同的变量及其之间的相互依赖关系，可以使用回归分析方法，比如一些公司通常用它来分析CRM大数据，评估客户满意度和其在留住回头客上的作用影响。另一方面，可以对客户的购买模式进行聚类分析。对于离群检测，关联规则的挖掘可用于探索大数据集中的隐藏关系和模式，通过识别异常的模式或行为，进行异常检测或者欺诈检测，从而降低风险。

人工神经网络(ANN)常见应用于图像分析处理和模式识别中。众所周知，人工神经网络随着节点数量的增加，结果的准确度会越来越高，然而，在内存消耗和计算需求方面也随之增大，复杂性也随之变高，为了克服这些挑战，需要使用分布式和并行的方法对人工神经网络进行缩放，可以使用基于人工神经网络的深度学习方法处理大数据[7]。

数据的可视化。为了使得分析方便对最终用户的使用，则分析的结果需要以一种可以理解且清晰的方式进行，数据可视化是解决这个问题的技术。然而，数据的高容量和高速率使大数据的可视化成为一项严峻的挑战，使用传统的可视化方法显然是不可能的。目前可用的大多数系统都在执行减少数据集的呈现，以避免与大型数据集可视化相关的复杂性[8]。

4 基于云计算的大数据技术

Gartner最初它将云计算技术描述为一种计算风格，在互联网技术的支持下，为客户提供可伸缩和弹性的IT支持功能[1]。云计算是目前比较适用于大数据处理的技术，另一方面，大数据需要巨大的存储空间和超强的计算能力，而云计算恰恰满足这两点需求。

现在最流行的基于云计算的大数据处理技术平台是Hadoop，基于MapReduce的实现，允许对大型的、异构的数据集进行分布式处理，而且目前有很多让Hadoop迁移上云的解决方案。Hadoop主要由HDFS（Hadoop Distributed File System）和MapReduce，在数据访问方面具有很高的吞吐率，尤其适合大数据的处理。HDFS是谷歌GFS的开源版本，使用Java语言开发，采用Key-Value的存储管理方法[9]。

Hive是基于Hadoop的一种数据管理工具，采用一种可以按行和列两种方式读取数据的方式（RCFile，Row-Column Store），访问效率大大提高。而且Hive也提供了数据压缩功能，能大大降低存储空间成本。在Hadoop和Hive上对RCFile测试，环境配置6GB内存、双核2.GHzCPU的节点共6个，用千兆以太网连接，结果为RCFile可以节省25%的存储空间，数据读取效率提30%。

5 展望

随着大数据处理技术的不断发展，也呈现出新的发展趋势和挑战。首先，推动大数据的可视化，让大数据分析处理的结果或者结论通过图形图像直观的表现出来，帮助人们更好的理解大数据中蕴含的事物的规律。其次，大数据技术和其他学科的融合发展，随着各行各业数字化程度的不断加深，越来越多的数据产生出来，怎样去挖掘这些海量数据背后的价值就成为了大数据技术和产业融合的推动力。第三，大数据背后折射出人们对隐私的担忧和信息安全的焦虑也越发突出，尤其是大数据处理的云计算平台，更使得其容易成为被攻击的目标，而且，某些数据单独罗列出来看不是问题，但是如果将某些地区的数据合并组成大数据后进行分析处理，得到的结果可能就会有泄密的风险，甚至危害国家安全，因此我们联合网络通信有限公司应该及时采取措施应对大数据处理技术面临的信息安全挑战。

参考文献

[1] Gartner.2016.”Gartner IT Glossary.”Gartner Inc.

[2] 李学龙,龚海刚.大数据系统综述[J].中国科学:信息科学,2015.

[3] 宋伟东,孙尚宇,耿继原,王崇倡.用大数据思维建构信息时代的电子政务[J].测绘科学,2014.

[4] 周岳斌,岳青伦.浅谈网络处理器的关键技术及其应用前景[J].科技情报开发与经济,2007.

[5] 张蕾.基于云计算的大数据处理技术[J].信息系统工程,2014.

[6] 周震,赵红梅.云计算技术发展历程探究[J].信息通信,2013.

[7] 栗蔚,魏凯.大数据的技术、应用和价值变革[J].电信网技术,2013.

[8] 王珊,王会举,覃雄派,周烜.架构大数据:挑战、现状与展望[J].计算机学报,2011

[9] 查礼.基于Hadoop的大数据计算技术[J].科研信息化技术与应用,2012.

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。