打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
你知道数据湖泊(DATA LAKE)吗?

大家周四好。


昨晚的帖子的阅读量和转发量把西瓜哥吓了一跳,难道大家都没有去看球吗?

这是西瓜哥最好的成绩了,因为这个数据是按照自然天统计的,也就是我昨晚快9点发出,3个小时居然有8000多人阅读,图文转化率超过90%。这是我们的高端存储知识成立1年多来最好的成绩了,好像最热的文章才70%多一点的。

估计有一部分是看到美女图误入的,但转发量也有好几百,今天一看粉丝也多了几百。说明不是所有的人都奔小三去的,O(∩_∩)O哈!

只能说明,集成系统太热了。关注的人这么多,这是西瓜哥没有想到的。

但我恨Nutanix,因为它的口号是“NO SAN”。但西瓜哥还想依赖SAN吃饭呢。

VMWARE真的生气了,昨晚连夜发布了VSAN就绪节点,里面也有DELL,当然,还有超微和富士通。奇怪的是还有HP。

HP自己的Server SAN应该比DELL的要强,也加入VSAN的阵营。说明这个市场和西瓜哥一样本性,没有节操,没有底线,有奶便是娘。

VMWARE赶在这个时间点发布,无非告诉人们,其实,DELL还是爱我的,虽然前天晚上他上了Nutanix的床。


我们有一网友是Nutanix的,今天还和西瓜哥探讨了Nutanix的渠道怎么办,怎么和DELL的渠道竞争。我就说了,除了政策扶持外,应该搞一些差异化的竞争,比如,Nutanix的集成系统以后按斤卖。现在很多用户都觉得Nutanix蛮贵的,换一种计算方式,说不准能够打开一片市场。就像很多公司的食堂,原来都是按照菜品定价的,现在有称重食堂,不管你打啥菜,只按照重量付费。我想,集成系统也可以采用这个思路,这样价格体系和DELL的就不会冲突,没有可比性,O(∩_∩)O哈!


这段时间西瓜哥成了存储圈里最没有节操的人了,昨晚的文章就有人在微博里骂我利用三俗来博取眼球。今天,我们来点高大上的吧,大家看不下去就看世界悲(赌钱的都是这么写的)吧。


今天卖弄一下西瓜哥刚学到的一个大数据的热门新词“DATA LAKE'。


”DATA LAKE“这个词现在国外很热,但西瓜哥百度了一下,居然没有看到任何中文的翻译,看来中国存储圈现在的学习能力在下降。西瓜哥的英文虽然是数学老师教的,斗胆在这里就翻译为”数据湖泊“吧。因为这个词和数据仓库是相对的。


数据湖泊这个概念最先出现在2011年Forbes杂志上。那篇文章叫”大数据需要一个大的新型架构“。

这篇文章说数据湖泊和数据仓库的区别,主要就是数据仓库的数据进入这个池之前是预先分类的,这可以指导其后面如何进行数据的分析。但在大数据时代,这些都是素材而已,你根本不知道以后如何用它。也就是数据湖泊给后面的数据分析带来了更大的弹性。因此,这个放大数据的仓库,专家建议叫数据湖泊,以区别于数据仓库。


数据湖泊这个词,EMC的Pivotal在市场营销中已经开始大量采用。估计不久,中国的用户会对这个术语熟悉起来。到时候西瓜哥可以吹牛说,西瓜哥是把数据湖泊引入中国的第一人,O(∩_∩)O哈!


数据湖泊好像没有一个标准的定义。西瓜哥找了半天,找到一个,觉得这个比较好理解。


数据湖泊是包含下面两个特征的信息系统:

  1. 可以保存大数据的并行系统;

  2. 能够在数据不移动的情况下进行计算的系统;


那么,Hadoop和数据湖泊又有何关系呢?

当前,Hadoop是实现数据湖泊的最常用技术手段,但以后也许有更好的方式。也就是说,数据湖泊是一个概念,而Hadoop是实现这个概念的技术手段。


Forbes在今年1月份刊登了一篇文章,叫《数据湖泊梦》(后面我们给出了原文链接),这篇文章把数据湖泊的成熟度分为四个级别。

1、第一级是在没有用Hadoop之前,这个时候各个大型应用都有自己的数据库,也有自己的数据仓库来做数据分析。


2、第二级是企业引入了Hadoop。企业的应用数据和Hadoop有交互。

3、第三级是数据湖泊的成长期。新的系统直接支持Hadoop,Hadoop成为缺省配置,而数据仓库只在某些特定场景下使用,外部的数据也引入数据湖泊中。

4、第四阶段就是数据湖泊和应用云阶段。Hadoop大量采用,并且加强其可靠性、安全性。


现在大部分的企业,应该都处于数据湖泊的第一阶段和第二阶段。目前能做到第三阶段的企业基本没有多少,但Google和Facebook这样的互联网企业应该说已经实现数据湖泊梦想了。


数据湖泊的出现,也引出其他一些争论,比如系统的整合,以后的方向是整合应用还是整合数据呢?哪种方式会胜出?


EMC+里面有一篇文章,认为以后数据整合将是方向。


首先,IT的价值从已经从应用往数据迁移。


传统的大型应用会形成信息孤岛,每个应用都有自己的数据。


通过引入数据湖泊的概念,把数据整合起来。


基于数据湖泊基础上构建数据仓库和分析环境。


最后,把这些应用开发全部云化,拥抱第三平台。这样就可以打造企业差异化的竞争能力。比如分析出存储按斤卖这种差异性的销售策略,如果客户是胖子估计成功率高,O(∩_∩)O哈!

总之,数据的整合比应用的整合要简单得多。如果企业追求应用的整合,估计看不到数据湖泊里面游泳的美女,就会被数据海洋湮灭了。


看来,数据湖泊是构造企业差异化竞争的很好思路,而Hadoop是目前流行的实现手段。


结合到存储,比较适合普通企业数据湖泊的存储架构,西瓜哥比较看好EMC ISILON和华为的OceanStor 9000这种分布式架构。因为他们比较符合数据湖泊的特点,比如并行系统,数据可以原地计算,而且适合一般的企业使用。


好,今天就分享这里。明天见。


 

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
数据湖101:概述
【大数据】一起弄懂Data Lake数据湖
十年之后,再看数据湖
hadoop BI与数据仓库的解决方案
2015年度中国十大美女 VS. 西瓜哥十大美文(附链接)
什么是数据仓库,什么是ETL
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服