阿里数据整合及管理体系
1 模型设计
目前,数据公共层设计最流行是维度建模。它分三层:操作数据层(ODS)、公共维度模型层(CDM)和应用数据层(ADS)。其中,CDM又分明细数据层(DWD)和汇总数据层(DWS)。
操作数据层:基于无差别同步数据源表到数据仓库,根据数据业务需求及稽核和审计要求保留历史数据、清洗数据。
公共维度模型层:存放明细事实数据、维表数据及公共指标汇总数据,采用一些维度退化手段,将维度退化至事实表中,减少事实表和维表的关联,提高明细数据表的易用性;同时在汇总数据层,加强指标的维度退化,采取更多的宽表化手段构建公共指标数据层,提升公共指标的复用性,减少重复加工。其主要功能如下:
- 组合相关和相似数据:采用明细宽表,复用关联计算,减少数据扫描。
- 公共指标统一加工:构建命名规范、口径一致和算法统一的统计指标,为上层数据产品、应用服务提供公共指标;建立逻辑汇总宽表。
- 建立一致性维度:建立一致的数据分析维表,降低数据计算口径、算法不统一的风险。
应用数据层:存放数据产品个性化的统计指标数据,根据CDM层和ODS层加工生成。
- 个性化指标加工:不公共性、复杂性(指标型、比值型、排名型指标)。
- 基于应用的数据组装:大宽表集市、横表转纵表、趋势指标串。
2 基本原则
2.1 高内聚低耦合
主要从数据业务特性和访问特性两个角度来考虑:将业务相近或相关、粒度相同的数据设计为一个逻辑或物理模型;将高概率同时访问的数据放在一起,降低概率同时访问的数据分开存储。
2.2 核心模型与扩展模型分离
避免破坏核心模型的架构简洁性和可维护性。
2.3 公共处理逻辑下沉及单一
越是底层共用的处理逻辑越应该在数据调度依赖的底层进行封装与实现,不要让公用的处理逻辑暴露给应用实现,不要让公用逻辑多处同时存在。
2.4 成本与性能平衡
适当的数据冗余可换取查询和刷新性能,不宜过度冗余和数据重复。
2.5 数据可回滚
处理逻辑不变,在不同时间多次运行数据结果确定不变。
2.6 一致性
具有相同含义的字段在不同表的命名必须相同,必须使用规范定义中的名称。
2.7 命名清晰、可理解
3 模型实施
3.1 指导方针
首先,进行充分的业务调研和需求分析。
其次,进行数据总体架构设计,主要是根据数据域对数据进行划分;安装维度建模理论,构建总线矩阵、抽象出业务过程和维度。
再次,对报表需求进行抽象整理出相关指标体系。
最后,代码研发和运维。
3.2 实施工作流
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请
点击举报。