数据分层

1. 概述(Overview)

数据分层是企业数据治理体系的核心组成部分,与元数据管理共同构成数据资产化的底层结构。

比喻:元数据是图书馆的索引卡片,数据分层是图书的分类系统。无索引和分类,再多的数据也无法高效使用。

数据分层的目标是将数据从混乱状态转向有序体系,实现规范化管理、高复用性和一致性保障。


2. 本质(Essence)

数据分层的核心本质

按照加工程度和使用目的,将数据组织成不同层次,实现规范化管理、复用性提升和一致性保证。

核心价值

价值点描述
降低资源冗余避免重复计算与存储,提高系统效率
保证数据一致性统一计算口径与定义,确保数据准确性
提升开发效率可复用已有数据层,减少重复开发
降低维护成本屏蔽底层变化对上层影响,实现变更隔离
构建有序数据体系将企业数据从混沌走向有序,提高管理和决策能力

3. 模型(Model)

3.1 数据架构逻辑分层模型

graph TD    A[数据源层] --> B[数据采集层]    B --> C[接入与传输层]     C --> D[数据存储层]    D --> E[数据计算层]    E --> F[数据应用层]    G[支撑系统层] -.-> D    G -.-> E    G -.-> F
层级功能说明
数据源层数据输入包括结构化、半结构化、非结构化数据
数据采集层数据接入日志代理、API抓取、消息队列等
接入与传输层数据清洗与传输初步清洗和转换,Kafka/Pulsar等
数据存储层数据持久化离线(HDFS/对象存储)、实时(KV/内存)
数据计算层数据加工与聚合批处理、流处理、流批一体
数据应用层数据输出报表、BI、OpenAPI、AI接口
支撑系统层元数据、监控等元数据、调度、监控、告警、安全审计

3.2 经典数据仓库分层模型

层级全称功能特点
ODSOperational Data Store原始数据存储保持原貌,基础清洗
DWDData Warehouse Detail明细层按模型清洗、规范化整合
DWSData Warehouse Summary汇总层轻度汇总,生成常用指标
ADSApplication Data Store应用层面向具体场景,直接使用
graph TD    A[原始数据源] --> B[ODS层]    B --> C[DWD层]    C --> D[DWS层]     D --> E[ADS层]    F[报表应用] --> E    G[分析应用] --> E    H[推荐系统] --> E

3.3 模型分层原则


4. 能力体系(Capability System)

4.1 核心能力

能力描述
数据规范化管理按预定义模型组织数据
数据复用分层设计实现逻辑与数据复用
一致性保障统一计算口径,避免不一致结果
依赖管理管理层级间依赖关系
变更隔离屏蔽底层变化对上层影响
质量控制分层实施数据质量校验

4.2 协同能力(与元数据管理)


5. 架构模型(Architecture Model)

5.1 分层存储架构

graph LR    A[高频访问数据] --> B[内存/列式存储]    A --> C[低频访问数据] --> D[对象存储]    B --> E[实时分析]    D --> F[历史分析]

5.2 分层计算架构


6. 类型体系(Taxonomy)

分类维度类型描述
数据加工层次原始层原始数据基础清洗
明细层结构化处理,保留详细信息
汇总层聚合计算,生成指标
应用层高度定制化,面向特定应用
数据存储方式热数据高频访问,高性能存储
温数据中频访问
冷数据低频访问,低成本
业务用途共享层跨业务公共数据
领域层特定业务域数据
应用层面向具体应用

7. 边界与生态(Boundary & Ecosystem)


8. 治理体系(Governance System)

8.1 分层治理原则

8.2 分层治理实践


9. 演进趋势(Evolution)

方向描述
智能化手工定义→智能推荐,静态→动态自适应,规则驱动→模型驱动
实时融合批处理→流批一体,离线→实时,静态架构→动态架构
标准化企业标准→行业标准,技术导向→业务导向,静态→可配置

10. 选型方法论(Selection Framework)


11. 总结(Conclusion)

  1. 数据分层是数据治理的基础,与元数据管理构成数据资产化底层结构。
  2. 分层设计需遵循高内聚低耦合、数据复用、逐层加工、变更隔离、统一口径等原则。
  3. 分层与元数据管理密切协同,实现自动化、血缘追踪与可观测治理。
  4. 分层架构需适应业务实时性需求,兼顾性能与复杂度。
  5. 通过规范化分层设计,企业可构建有序数据体系,实现高复用性、一致性与低维护成本。

附:核心架构全景图示意(Mermaid)

graph TD    subgraph 数据源与采集        A[数据源层] --> B[采集层]        B --> C[接入与传输层]    end    subgraph 存储与计算        C --> D[存储层]        D --> E[计算层]    end    subgraph 应用与输出        E --> F[应用层]    end    subgraph 支撑系统        G[元数据/监控/调度/安全] -.-> D        G -.-> E        G -.-> F    end

关联内容(自动生成)