应该从哪里去梳理和收集元数据?特别是数仓的元数据该怎样梳理?怎样应用元数据?
元模型是什么?
数据资产目录和元数据目录是什么关系?元数据上线后如何维护?
元数据系统应该具有哪些功能?如果元数据没有管理好,会怎样?
元数据管理应该具有哪些功能

一、业务驱动因素
可靠管理良好的元数据有助于:
- 通过提供上下文语境和开展数据质量度量,提高数据的可信度
- 通过强化多元化应用,提升战略数据的价值
- 通过识别冗余数据和流程提高运营效率
- 防止使用过时或不正确的数据
- 减少查找和分析数据所需的时间
- 提高数据使用者和IT专业人员之间的沟通成效
- 创建准确的影响分析,从而降低项目失败的风险
- 通过缩短系统开发生命周期时间提高产品上市速度
- 通过全面记录数据上下文语境、历史和来源,降低培训成本并减轻员工离职所带来的影响
管理不善的元数据将导致的问题:
- 冗余的数据和数据管理流程
- 重复和冗余的数据字典,元数据存储库和其他元数据存储
- 不一致的数据元素定义和数据滥用相关的风险
- 元数据的不同来源和版本之间互相矛盾冲突,降低了数据使用者的信心
- 元数据和数据的可靠性受到质疑
- 良好的元数据管理可以确保组织对数据资源的一致性理解,并促进更高效的跨组织开发使用。
二、目标和原则
元数据的管理目标:
- 记录和管理组织内与数据相关的业务术语知识体系,以确保人们理解数据内容并能够一致的使用数据
- 收集和继承来自不同来源的元数据,以确保人们了解来自组织不同部门数据之间的相似性与差异
- 确保元数据具有高质量、一致性、时效性和安全性
- 提供标准附档时,使元素据可以被元数据使用者访问
- 建立新的或强制要求使用现有的技术元数据标准,以保障数据交换
实施元数据遵循原则
- 组织承诺。确保组织对元数据管理的承诺,将元数据管理作为企业级数据资产管理战略的一部分
- 战略规划。指定元数据战略,说明如何创建、维护、继承和访问元数据。战略应推动需求的定义。在评估、购买和部署元数据管理产品之前,应明确这些需求。元数据战略必须与业务优先级保持一致。
- 企业视角。从企业视角确保未来的可扩展性,但hi通过的带和增量的方式来交付实施以带来业务价值
- 宣导推广。宣传元数据的必要性级每种类型的元数据用途;宣导推广元数据的价值将鼓励更多业务部门使用元数据,并使其反哺更多其关于业务的专业知识。
- 访问便利。确保员工了解如何访问和使用元数据
- 保证元数据质量。认识到元数据通常是通过现有流程生成的,所以流程所有者对元数据的质量负责
- 审计元数据标准。制定元数据标准、强制执行并审计使用情况,以便利数据集成和应用
- 持续改进。创建反馈机制,以便数据使用者可以将错误的或者过时的元数据反馈给元数据管理团队
三、元数据的定义
规划、实施和控制活动,这些活动有助于吹里、维护、集成、保护、审计和管理其他数据的能力。
四、元数据基础
元数据的类型
元数据分为:业务元数据、技术元数据、操作元数据
| 业务元数据 | 技术元数据 | 操作元数据 |
| 数据集、表和字段的定义和描述 | 物理数据表名和字段名 | 批处理程序的作业执行日志 |
| 业务规则、转换规则、计算和推导公式 | 字段属性 | 抽取过程和结果的历史记录 |
| 数据模型 | 数据库对象属性 | 调度异常处理 |
| 数据质量规则和检核结果 | 访问权限 | 审计、核对和控制测量的结果 |
| 数据更新计划 | 数据的CRUD规则 | 错误日志 |
| 数据原生地和数据血缘 | 物理数据模型,包括数据表名、键和索引 | 报告和查询的访问模式、频率和执行时间 |
| 数据标准 | 数据模型与各类实物资产间的对应关系记录 | 补丁和版本维护计划和执行情况,以及当前的补丁级别 |
| 为数据元素指定的记录系统 | ETL作业详情 | 数据备份、保留策略,创建日期,灾难恢复预案 |
| 有效值约束 | 文件格式模式定义 | 服务水平协议(SLA)的要求和规定 |
| 利益相关方的联系信息 | 源到目标的映射文档 | 容量和使用模式 |
| 数据的安全及隐私级别 | 数据血缘文档、包括上有和下游变更影响的信息 | 数据归档、保留规则和相关归档文件 |
| 已知的数据问题 | 程序和应用的名称和描述 | 清楚标准 |
| 数据使用说明 | 内容周期性更新的作业调度计划和任务依赖 | 数据共享规则和协议 |
| 恢复和备份原则 | 技术人员的角色、责任和联系方式 | |
| 数据访问的权限、组和角色 |
元素据注册标准ISO/IEC 11179
标准有以下几个组成
第一部分:数据元素的生成和标准化框架
第二部分:数据元数据分类
第三部分:数据元素的基本属性
第四部分:数据定义的指定规则和指南
第五部分:数据元素的命名和识别原则
第六部分:数据元素的注册
非结构化数据的元数据
非结构化数据对应的元数据包括:描述元数据(目录信息和分类词库关键词)、结构元数据(标签、字段结构和格式)、管理元数据(来源、更新计划、访问权限和导航信息)、书目元数据(如图书馆目录条目)。
元数据来源
- 应用程序中元数据存储库
- 业务术语表(业务术语表的作用是记录和存储组织的业务概念、术语体系、定义及这些术语之间的关系)
- 商务智能工具
- 配置管理工具
- 数据字典
- 数据集成工具
- 数据库管理和系统目录
- 数据映射管理工具
- 数据质量工具
- 字典和目录
- 事件消息工具
- 建模工具和存储库
- 参考数据库
- 服务注册表
- 其他元数据存储
元数据架构类型
架构类型包括:集中式元数据架构、分布式元数据架构、混合式元数据架构、双向元数据架构
集中式元数据架构
| 优点 | 缺点 |
| 高可用性,因为它独立与源系统 | 必须采取复杂的流程来确保元数据源头中的更改快速地同步到存储库中 |
| 快速的元数据检索,因为存储库和查询集成在一起 | 维护集中式存储库可能成本高昂 |
| 解析的数据库结构不受第三方或商业系统的专有属性所影响 | 元数据地抽取可能需要自定义模型或中间件 |
| 提取元数据时可以进行转换、自定义或者使用其他源系统中的元数据进行补充增强,从而提高了元数据质量。 | 验证和维护自定义代码可能会增加对内部IT人员和软件供应商地需求 |
分布式元数据架构
| 优点 | 缺点 |
| 元数据始终尽可能保持最新且有效,因为它时从其他数据源中直接检索的 | 无法支持哦那个胡定义或手动插入的元数据条目,因为没有存储库可用来放置这些添加项 |
| 查询是分布式的,可能会提高响应和处理的效率 | 需要通过统一的、标准化的展示方式呈现来自不同系统的元数据 |
| 来自专有系统的元数据请求仅限于查询处理,而不需要详细了解专有数据结构,因此最小化了实施和维护所需的工作量。 | 查询功能直接受到源系统可用性的影响 |
| 减少了批处理,无需进行元数据复制或同步处理 | 元数据的质量完全取决于源系统 |
混合元数据架构
混合元数据架构结合了集中式和分布式架构的特性。元数据仍然直接从源系统传输到集中式存储库。存储库的设计仅考虑用户添加的元数据、关键的标准化元数据和来自手动处理的数据源的元数据。
双向元数据架构
它允许元数据在架构的任何部分中进行更改,然后将变更从存储库同步到其他原始源以实现反馈
五、元数据活动
5.1 定义元数据战略
制定元数据战略的步骤
- 启动元数据战略规划。
- 关键利益相关方访谈
- 评估现有的元数据来源和信息架构。
- 制定未来的元数据架构
- 制定分阶段的实施计划
5.2 理解元数据需求
对业务、技术、操作三类元数据有不同的需求,功能需求:更新批次、同步情况、历史信息、访问权限、存储结构、集成要求等
元数据需求点包括:
- 更新频率:元数据属性和属性集更新的频率
- 同步情况:数据源头变化后的更新事件
- 历史信息:是否需要保留元数据的历史版本
- 访问权限:谁可以访问元数据,他们应该如何访问,以及用于访问的特定用户界面功能
- 存储结构:元数据将如何被建模以进行存储
- 集成要求:来自不同源的元数据的集成成都和集成规则
- 维护要求:更新元数据的过程和规则
- 管理要求:管理元数据的角色和职责
- 质量要求:元数据质量需求
- 安全要求:有些元数据不应公开,因为它可能会泄露某些高度保密的信息
5.3 定义元数据架构
架构支持扫描不同元数据源和定期的更新元数据存储库。支持手工更新元数据、请求元数据、查询元数据和被不同用户组查询
- 创建元模型
- 应用元数据标准
- 管理元数据存储
5.4 创建和维护元数据
元数据管理的一般性原则的方法:责任、标准、改进
责任:流程的执行者对元数据的质量负责;标准:执行、审计、应用数据标准;改进:建立机制,持续改进不准确和不及时元数据
- 集成元数据
- 分发和交付元数据
5.5 查询、报告和分析元数据
在商业智能、商业决策、业务语义、方面使用元数据,为业务、开发人员提供不同的界面,以供查询和获取元数据。
主动元数据管理
数据永远都是最新的,并且是开启中
主动收集元数据并且能够创造智能
主动根据AI分析,并且能够做一些执行动作
支持API,各系统的嵌入
六、元数据的工具
元数据主要管理工具是元数据存储库,元数据管理工具提供一个集中位置管理元数据的功能
七、元数据的方法
数据血缘和影响分析
应用于大数据采集的元数据
八、元数据实施指南
就绪评估和风险评估
缺乏元数据可能带来的风险
- 因不正确、不完整或不合理的假设,或对数据知识的缺乏,而导致的错误判断
- 敏感数据的暴露,可能会使客户或员工面临风险,或影响企业的信誉并导致法律纠纷
- 少数了解数据的SME离开并带走他们的知识所带来的风险
组织和文化变革
九、元数据治理
过程控制
元数据解决方案文档
包括:
- 元数据管理实施状态
- 源和目标元数据存储
- 元数据更新的计划信息
- 留存和保持的版本
- 内容
- 质量声明或警告
- 记录系统和其他数据源状态
- 相关工具、架构和人员
- 敏感信息、数据源的一处或脱敏策略
元数据度量指标
- 元数据存储库完整性。
- 元数据管理成熟度
- 专职人员配备
- 元数据使用情况
- 业务术语活动
- 主数据服务的数据遵从性
- 元数据文档质量
- 元数据存储库的可用性。
元数据、数据资源目录和数据资产目录
1、元数据(技术) = 数据资源你目录(业务) != 数据资产目录(业务)
2、并非所有的数据都是资产你,作为资产:
2.1 所有权或者使用权
2.2 价值体现:数据赋能;数据交易
2.3 交易监管
2.4 数据供应链
3、数据资产目录建立在元数据基础之上
3.1 数仓相关的元数据
3.2 数据湖相关的元数据
3.3 交换你和交易平台相关的元数据
3.4 非结构化数据,特别是文档相关的元数据
元模型
元模型的定义:创建一个元数据存储库的数据模型,也叫元模型,是定义元年数据战略和理解业务需求后的第一个设计步骤。可以根据需要开发不同级别的元模型;高级别的概念模型描述了系统之间的关系,低级别的元模型细化了各个属性,描述了模型组成元素和处理过程。作为一种规划工具和表达需求的方案,元模型本身也是一个有价值的元数据源。

元数据来源
应用程序的元数据存储库、业务术语表、商务智能工具、配置管理工具、数据字典、数据集成工具、数据库管理和系统目录、数据映射管理工具、数据质量功能跟你那句、字典和目录、事件消息工具、建模工具和存储库、参考数据库、服务注册、其他元数据存储。
AI 赋能的数据管理工具
- 元数据的自动获取和更新,从而实现数据资产的自动编目
- 数据标准、参考数据和主数据的额自动识别和建立
- 自动生成新建业务系统数据项的数据质量规则
- 数据格式自动批量化调整
- 支持海量数据的大规模应用
- 以人工智能手段实现规则无法覆盖的异常数据识别
- 基于机器学习给出异常数据的修复建议
讨论:
元数据、数据资源目录,和数据资产目录的关系
元数据应该包括数据的哪些属性?特别是数据质量和数据安全属性元数据管理的软件系统应该具有哪些功能?
集团数字化转型应该从哪个领域开始?