打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
数据仓库和大数据的区别?

数据仓库简单理解是一套软件解决方案,作用是把业务系统的数据加载到一个单独的数据库中,并依据业务逻辑建立数据模型,供企业查询分析决策之用。它的出现是为了解决基于业务数据库来做分析时面临的很多问题,包括:结构复杂,数据脏乱,难以理解,历史缺失,数据量大时查询缓慢等。数据仓库的概念最早出现在20世纪70年代,出现时间远远早于大数据。

大数据与数据仓库不同,它不是一套解决方案,现在数据面临的新形态。传统的数据仓库中存储的往往是企业内部的数据,特点是结构化的数据。所谓结构话指的是非常规整的,类似Excel表格那样的数据。大数据往往是非结构话的,比如设备的日志文件,网站的埋点信息等,xml文件等。相对于传统数据,大数据量更大,类型更多,处理的复杂度也更高。

可以理解,数据仓库是数据的容器,里面放的是传统的结构化数据。针对大数据的特点,数据仓库的方式已经不适用。而数据湖是针对大数据特点产生的新技术,可以理解为大数据容器。数据湖和数据仓库最大的不同在于,数据仓库是先处理再存储,数据湖是先存储后处理。怎么理解呢?我拿炒菜类比可能大家比较好理解。比如炒土豆,数据仓库是先把土豆削皮,切丝,放在冰箱里等着炒菜的时候拿出来用。这样做的好处是,炒的时候方便,坏处是如果哪天我不想吃土豆丝,而想吃土豆片就没有办法。数据湖是直接把土豆放冰箱,等炒菜的时候再拿出来处理。好处是可以根据具体的分析具体决定如何处理。

数据仓库和数据湖也是一样的道理。数据仓库先把数据处理好存储再数据仓库中,便于分析,但是也就失去了分析的灵活性。数据湖是不管什么数据,先存起来再说。随着计算机处理能力的增强,现用先处理的方式也不是问题,而且还能保证灵活性。可以说,数据湖更适合大数据这种新的数据形式。

我理解题主是把两个概念搞混了。数据仓库是容器,对应的新的容器是数据湖,而不是大数据。大数据是数据湖里的数据。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
数据仓库与数据湖
数据湖到底是什么湖?
greenplum和hive,各有什么特点,哪个适合做数据仓库呢
辨析BI、数据仓库、数据湖和数据中台内涵及差异点(建议收藏)
大数据:“数据湖”中数据管理的4种方式
数据湖、数据仓库、数据中台,有什么区别?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服