书籍封面

数据治理

作者 哈喽沃德先生
20.0 分钟

摘要

数据治理:数仓建设的真正难点

  • 快手、美团等构建实时数仓旨在解决业务发展中的数据治理问题,包括数据资产管理、数据质量监控等。
  • 你能获得:了解数据治理的必要性、数仓发展阶段以及数据管理体系的构建方法,提高数据质量和利用效率

核心内容:

1. 数据治理的必要性

  • 开发不规范和业务理解不足导致数据质量问题频发。
  • 缺少上线前的数据校验和链路节点质量保障。
  • 数据运维不及时,业务数据问题处理流程缺失。
  • 上游数据源问题处理难,无法建立有效机制。
    • 详细解释:快速扩张期未按规范开发,后续难以维护。对业务数据理解不深,导致数据质量差。上线前缺少数据校验,易出错。缺少数据质量保障,问题数据流入下游。数据不能及时产出影响用户体验,下游问题上报无机制。上游数据问题处理困难,仓库侧难解决。

2. 数仓发展阶段

  • 初始期:快速支持业务,统一数据仓库内部规范。
  • 扩张期:完善中间层数据模型,保证数据准确性。
  • 治理期:降低数据使用成本,降低计算/存储资源消耗。
  • 缓慢发展期:提高用数效率,实现自助查询和自动化。
    • 详细解释:初始期业务单一数据量少,重在快速支持业务。扩张期业务增长快,数据量增多,需保证准确性。治理期业务稳定,重在优化成本和稳定产出。缓慢发展期需提效,实现自助查询和自动化。

3. 数据管理体系

  • DAMA 知识体系:数据管理职能领域包括数据治理、数据架构、数据建模等。
  • DCMM 数据管理成熟度评估模型:从组织、制度、流程、技术等方面评估数据管理能力。
  • 数据治理是数据架构、数据建模、数据存储等数据管理领域的总纲。
  • 数据资产管理:规划、控制和提供数据及信息资产,提高数据资产质量。
    • 详细解释:DAMA知识体系包括数据管理职能领域和环境因素,指导数据管理活动。DCMM模型对数据管理能力进行分析和评估,划分五个等级。数据治理范围广,涉及数据本身的管理、数据安全、数据质量、数据成本等。数据资产管理融合业务、技术和管理,确保数据资产保值增值。

4. 数据治理之道

  • 数据治理需要体系建设、夯实基础、IT 赋能、聚焦数据、建管一体化。
  • 通过有效的数据质量控制手段,消除数据质量问题进而提升企业数据变现的能力。
    • 详细解释:合理的平台架构、完善的治理服务和体系化的运营手段是发挥数据价值的三个要素。数据规范、数据质量和数据安全是数据治理的基础。将规范、流程、标准落地到IT平台是数据治理的保障。加强元数据管理和主数据管理,从源头治理数据。保证数据模型血缘与任务调度的一致性。

5. 数据治理之术

  • 规范治理,数仓架构治理、数据指标治理、元数据治理、计算资源治理、存储资源治理、数据安全治理和数据质量治理
    • 数据生命周期治理,历史数据等级划分,对不用的数据剥离。
    • 详细解释:规范是数仓建设的保障,要统一按照最详细、可落地的方法进行规范建设。优秀可靠的数仓体系,往往需要清晰的数据分层结构,保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路过长数据指标就是将大数据之“大”的精髓给提炼出来,展现每日观察数据的使用者最迫切想要看到的统计量。在系统建设的各个阶段都应该根据标准进行数据质量检测和规范,及时进行治理,避免事后的清洗工作。

6. 企业级数仓任务开发流程与规范

  • 将数据仓库研发流程抽象为需求、设计、开发、测试、发布和运维六个阶段。
  • 明确各个阶段的角色职责,规范各个环节的任务。
    • 详细解释:数据资产管理实际上是对物的管理,而研发流程规范管理则是对人的行为的管理。

7. 数据指标治理

  • 统一对指标的认知和理解,对指标要素进行统一。
  • 建立指标中心,对指标数据形成体系,便于开发建设人员理解。
    • 详细解释:指标中心具有指标体系建设、与下游合作、保障指标建设时口径的统一、完成指标覆盖等作用。

8. 数据生命周期治理

  • 需要通过对历史数据的等级划分与对表类型的划分生成相应的生命周期管理矩阵。可以用于数据表的生命周期管理
    • 详细解释:要对历史数据进行四级的划分,分别是“非常重要”、“重要”、“可恢复”、“不重要的数据”

9. 元数据治理

  • 元数据治理主要解决三个问题和认识元数据的重要性。
  • 通过建立相应的组织、流程和工具,推动业务标准的落地实施,实现指标的规范定义,消除指标认知的歧义
    • 详细解释:元数据治理是构建数仓的重要一环,需要保证元数据的真实性,对数据来源、用途等方面进行分析。

10.计算资源治理 和 存储资源治理:

  • 降低集群资源满,优化数据。节省数据存储,存储格式及压缩格式配置
    • 详细解释:针对集群资源满载或者数据量过大的场景进行治理,通过分析数据,优化数据,解决存储空间不足的问题。

11.数据安全治理

  • 强调构建安全的数据使用理念和加强安全检测。
  • 对数据安全进行管控,早期设立访问权限,成熟期细化到更小颗粒度数据加密。
    • 详细解释:防止核心表数据通过跨部门暴露,杜有关机密数据泄漏的现象发生。

12.数据质量治理

  • 建立数据风险点监控,重视监控,提升数据质量
  • 修复当前指标,从而建立更好的数据。
    • 详细解释:数据不准极大可能会影响业务,降低其可信程度,因此数据的质量是根本,加强重视,设立警戒线十分必要。

问答

Q: 为什么需要数据治理?

A: 早期扩张期开发不规范、数据质量差、问题数据流入下游,业务数据问题处理流程缺失等这些情况都需要建立数据治理。

Q: 数据管理体系应该如何构建?

A: 考虑从组织、制度、流程、技术等方面评估数据管理能力。DAMA强调数据管理职能领域和环境因素,数据治理为数据资产管理提供框架和基础,数据资产管理的成果可以反馈到数据治理中,帮助改进数据管理策略。

Q: 企业级数仓任务开发流程和规范是怎么样的?

A: 从需求提出到文档记录的整个开发流程,包括关键步骤和评审原则:分为需求、设计、开发、测试、发布和运维六个阶段,需要明确各个阶段的角色职责,规范各个环节的任务。

思维导图

目标读者

数据工程师、数据分析师、数据治理专业人员、企业管理者

作者背景

哈喽沃德先生是一位在数据治理领域拥有多年实践经验的专家,曾服务于多家知名互联网公司,对数据治理体系的建设和优化有深入的研究和独到的见解。

历史背景

随着大数据时代的到来,数据治理日益受到重视。本书总结了当前数据治理领域的实践经验,并结合最新的技术发展趋势,为企业提供数据治理的参考。

章节摘要

音频

Coming Soon...