打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
「深度观察」数字化转型加速,分布式存储迎来春天

随着5G的到来,Cloud、AI技术的应用和普及,各行各业数字化转型的不断加速,分布式存储已经成为产业界炙手可热的话题。不禁有人会问,是昙花一现,还是分布式存储迎来春天?今天,我们不妨来一探究竟。

非结构化数据爆发式增长,分布式存储大有可为

8K、5G、IoT、大数据、AI等系列技术的发展,带来了数据量的爆发式增长。IDC在《Data Age 2025》的报告中预测,从2018年到2025年,全球数据将从33ZB急速增长到175ZB,其中非结构化数据占比将超过80%。分布式存储凭借高扩展性和易管理能力,成为承载海量数据的重要选择。Gartner 2019年新定义的第二存储阵列,更是专门强调架构上必须是Scale Out的。

IDC数据增长趋势预测

IDC指出,目前每年存储下来的数据只有新产生数据的1%左右,其中真正用于数据挖掘的量不⾜存储数据的10%。数据资产已成为企业数字化转型的核心,未来随着大数据和AI等新生产工具的发展,数据存储比例和挖掘比例必将大幅提升,需要专业的分布式存储来提供更高的存储容量和并发性能。Gartner定义的第二存储阵列也将大数据分析作为其典型应用场景,认为未来的大数据分析会为分布式存储带来海量的数据和性能需求。

市场趋势明显,分布式存储产业爆发在即

IDC将分布式存储归入了软件定义存储来跟踪,IDC发布的《中国软件定义存储(SDS)及超融合存储(HCI)系统市场季度跟踪报告,2019年第二季度》显示,中国区软件定义存储已经连续多个季度同比大幅增长。

IDC中国区SDS存储2017Q2-2019Q2销售数据

按IDC的预测,中国区SDS存储销售从2018年到2023年将保持20%以上的年化增长率;到2023年,全球40%左右的存储系统都将是分布式存储架构。另一家调研机构Zion Market Research更是预测,全球分布式存储的销售额将从2018年的20亿美元快速增长到2027年的285亿美元,年化增长率高达34.7%。无论从过去几年的销售数据还是未来几年的销售预测来看,分布式存储的春天已经到来,以Ceph为代表的开源分布式存储蓬勃发展,以EMC、华为为代表的专业存储厂商重兵投入,同样也印证了这一结论。

IDC中国区SDS存储2018-2023年销售数据预测

分布式存储技术发展趋势

分布式存储是未来的发展方向已成为业界共识,那么分布式存储技术上又有哪些发展趋势呢,这点可以从Gartner分布式文件&对象存储关键能力要求和各大主流厂商的产品方向上来看一下:

极致效率

Gartner对第二存储的定义是:首要目的是经济高效地支持延迟和IOPS不是必需属性的非结构化数据工作负载, 典型用例包括长期归档,大数据分析应用程序的存储库,深度历史研究以及备份/恢复软件的备份/恢复目标。这就意味着,分布式存储的首要目标是提供极致效率的数据存储方案。

从Gartner分布式文件&对象存储关键能力要求来看,效率主要体现在几个方面:

  • 扩展性:整集群应具备扩展到几百甚至上千存储节点的能力,简化管理;单文件系统或单桶需要支持几百甚至上千亿文件,应对现在及未来的海量文件挑战。
  • 互通性:以自动驾驶为代表的新型应用已经越来越多的使用了文件、对象、HDFS多种访问协议,多协议互通可以避免文件的多次拷贝,有效提升文件的共享访问效率。
  • 存储效率:分布式存储需要使用大比例EC(Erasure Coding)替代传统的副本技术,获得更高的存储利用率;应具备重删、压缩等数据缩减能力,相同硬件可存储更多的用户数据;应支持高密硬件,应对海量数据的空间占用和功耗问题;应具备数据分级能力,热、温、冷数据可以使用不同的存储硬件;

极致性能

分布式存储不以支持低时延和高IOPS为首要目标,但并不意味着性能对分布式存储就不重要了。IDC在《Data Age 2025》的报告中预测,实时数据占比将逐年提升,到2025年实时数据占比将达到30%,这么大规模的实时数据,很大一部分是需要借助分布式存储实现数据采集、存储和分析的,这就需要分布式存储能够提供极致性能来应对。

IDC全球实时数据占比预测

比较典型的如金融的风险评估、交通的自动驾驶、新兴的AI应用,都需要从海量数据中快速获取所需的信息并进行实时分析,这就要求存储提供亚毫秒级的响应时延,同时以高扩展性应对高并发处理性能需求。业界主流厂商如EMC、PureStorage、华为等都推出了基于全闪存的分布式存储产品,通过存储软件、专有硬件、网络的深度配合,来满足上层应用的极致性能需求。

智能管理

随着数据量的增加和存储集群规模的增大,如何实现存储的高效管理成为用户面临的一大课题。各主流厂商纷纷推出“AI in Storage”的概念,通过端到端DIF和静默数据校验技术保障数据的一致性;通过AI训练实现系统性能自动优化;通过系统亚健康检测和故障模式库实现故障预测和故障自动解决。

提到智能管理,不可避免的还会涉及纯软件和软硬一体的流派之争。以Ceph为代表的开源分布式存储曾经以低成本的纯软部署占领舆论的风口,但这种方式无法实现软硬件密切配合的智能管理,也难以达到极致性能,最终用户还是更多选择了软硬一体的方案,纯软件方案的代表IBM和XKY也开始大力推广自己的软硬件一体机方案ESS和XSCALER。

随着分布式存储越来越多进入到企业的在线生产业务,如基因测序、自动驾驶、卫星测绘等,它已不再是低成本、低可靠存储的代名词。遍及各行业越来越多的大规模应用表明,分布式存储的春天已经到来。未来,硬件 算法将成为分布式存储的核心竞争力,以及厂商新的角逐焦点。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
新数据时代:业务驱动的存储“双模式”
破解非结构化数据存储之困 杉岩开启对象存储更大想象空间丨科技云·视角
新存储、新格局、新飞跃,浪潮存储应时而来
【新提醒】基于大数据分析的安全管理平台技术研究及应用【摘录】
大数据:万亿市场千帆竞发
新数据时代: 谁能占据新的C位
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服