重点问题汇总

二、重点问题汇总

2.1 数据治理

2.1.1、数据治理到底有哪些内容?

  1. 组织架构
    1. 是否要设立CDO
    2. 关于委员会
    3. 数据管理专员
    4. 数据owner
    5. 认责机制
  2. 规章制度
  3. 流程
  4. 技术

2.1.2、数据治理包括哪些具体活动?

1、定义数据治理策略

  1. 制定数据治理策略
  2. 执行准备情况评估
  3. 执行发现和业务协调
  4. 开发组织接触点

2、定义数据治理组织

  1. 定义数据治理运营框架
  2. 制定目标、原则和制度
  3. 承保数据管理项目
  4. 参与变更管理
  5. 参与问题管理
  6. 评估监管合规性要求

3、实施数据治理

  1. 支持数据标准和程序
  2. 制定业务术语表
  3. 与架构组协调
  4. 支持数据资产评估

4、嵌入数据治理

2.1.3、数据治理的输出物有哪些?

数据治理策略、数据策略、业务/数据治理策略路线图、数据原则、数据治理制度、流程、运营框架、路线图和实施策略、运营计划、业务术语表等。

2.1.4、数据治理的运营模式?

运营模式包括:

  • 集中式
  • 分布式
  • 联邦式

2.1.5、数据治理的考核目标?

价值:对业务目标的贡献;风险的降低;运营效率的提高。

有效性:目标的实现;扩展数据管理专员正在使用的相关工具;沟通的有效性;培训的有效性;采纳变革的速度

可持续性:制度和流程的执行星空;标准和规程的遵从情况

遵从法规和内部数据规范。

2.1.6、怎样写数据战略?数据战略应该包括哪些内容?

数据治理战略界定了治理任务的范围和目标。

可以从下面几个方面写数据战略

章程:确定数据治理的业务驱动因素、愿景、使命和原则,包括准备度评估、内部流程发现和当前问题或者成功标准;

运营框架和责任:为数据治理活动定义组织架构和职责

实施路线图

规划运营目标

数据战略应该包括:

  1. 定义数据治理的运营框架
  2. 制定数据治理的目标、原则和制度
  3. 推动数据管理项目立项
  4. 参与变革管理
  5. 参与问题管理
  6. 评估法规遵从行要求

 

2.2、数据架构

2.2.1、数据架构到底包括哪些内容?输出物有哪些?

数据架构包括:

数据分布、数据流设计、数据价值链等;

数据模型

  1. 概念模型
  2. 逻辑模型
  3. 物理模型

2.2.2、数据湖、数据中台、和湖仓一体

比较维度数据湖数据仓库湖仓一体化数据空间数据中台
数据类型结构化、半结构化、非结构化数据主要是结构化数据全类型数据,提供统一访问接口多类型数据(本地 + 跨主体分布存储)全类型数据(企业内集中治理)
数据处理ELT(提取、加载、转换)ETL(提取、转换、加载)灵活的 ETL 和 ELT 混合模式联邦计算(数据不动、算法 / 指令动)统一 ETL + 数据标准化处理
模式定义读取时定义模式(Schema-on-Read)写入时定义模式(Schema-on-Write)混合模式,根据需求灵活切换动态授权模式(按需确权、实时适配)统一数据模型(主题域 + 业务对象)
数据质量⚠️ 原始数据可能未清洗✅ 经过清洗和转换✅ 多层次质量管理✅ 跨主体数据确权 + 溯源验证✅ 企业级数据质量规则 + 全链路监控
存储成本✅ 使用廉价存储❌ 专用存储架构⚠️ 分层存储策略✅ 本地存储(无集中存储成本)+ 按需协同⚠️ 企业级集中存储 + 计算资源投入
查询性能⚠️ 依赖于优化✅ 针对查询优化✅ 智能查询路由⚠️ 依赖跨主体网络 + 加密计算效率✅ 预计算 + 缓存加速(面向业务场景)
数据用途探索分析、机器学习、数据发现结构化报表、BI 分析、KPI 监控全场景覆盖,统一数据服务跨主体可信协作(如医疗 / 金融数据共享)企业内业务复用(指标、标签、API 服务)
数据管理相对宽松,支持多种格式严格的结构和一致性统一元数据管理,灵活性与一致性并重数据主权确权 + 全链路追溯管理统一元数据 + 数据资产化管理(目录 / 权限)
用户群体数据科学家、高级分析师业务分析师、决策者全企业用户,角色化访问控制跨机构 / 企业的多主体用户(需身份认证)企业内业务人员、开发人员、分析师
扩展性✅ 可扩展到 PB 级⚠️ 纵向扩展受限✅ 云原生弹性架构✅ 原生分布式扩展(多节点无中心协同)✅ 企业级水平扩展(支持业务模块新增)
灵活性✅ 适应各类数据❌ 结构变更复杂✅ 分层适配不同需求✅ 动态适配跨主体数据格式与协作规则⚠️ 需适配企业统一模型(变更成本较高)
成熟度⚠️ 相对较新✅ 成熟技术⚠️ 快速发展中⚠️ 部分场景落地(处于发展阶段)✅ 企业级落地成熟(主流技术栈)

2.2.3、批流一体架构

概念:流批一体(或称 流批融合、统一架构)是一种同时支持批处理和流处理的架构与技术模式,强调代码复用、计算逻辑统一,兼顾实时性与准确性。

主要架构模式:

Lamada架构

1)批处理层(BatchLayer)。数据湖作为批处理层提供服务,包括近期的和历史的数据。

2)加速层(SpeedLayer)。只包括实时数据
3)服务层(ServingLayer)。提供连接批处理和加速层数据的接口。

缺点:逻辑重复(开发成本高)、维护困难

典型场景
实时 + 离线混合需求的系统
对历史数据和实时数据都需处理的 BI 系统
复杂事件处理(CEP)与周期性报表共存的场景

战略性的新型数据平台的采购和建设

  1. 战略性
  2. 数仓、数据湖、数据中台
  3. 信创

2.3、数据建模

2.3.1、不同种类的数据建模?

数据模型方案分为:关系型、维度型、面向对象型、基于事实型、基于时序型和非关系型数据库。

数据标准应该怎么建立?

SCD

一些维度表的数据不是静态的,而是会随着时间而缓慢地变化,这种随着时间发生变化的维度称之为缓慢变化维,把处理维度表数据历史变化的问题,称为缓慢变化维问题,简称 SCD 问题。

解决方法:保留原始值、改写属性值、增加维度新行、增加维度新列、增加历史表、使用拉链表保存历史快照

3NF 

1)第一范式(1NF)。确保每个实体都有一个有效的主键,且每个属性都依赖于主键:消除重复组,并确保每个属性的原子性和不可再分割(不是多值的)。1NF 通过额外的实体(通常称为关联实体)来解决多对多关系。
2)第二范式(2NF)。在1NF 基础上,确保每个实体都有最小的主键,每个属性都依赖于完整的主键。
3)第三范式(3NF)。在 2NF 基础上,确保每个实体没有隐藏的主键,每个属性都不依赖于键之外的任何属性(“非主键列之间不存在依赖关系”)。

第三范式(3NF)是指在满足第二范式的前提下,如果一个非主属性仅依赖于主键而不依赖于其他非主属性,则该表符合第三范式。换句话说,非主属性之间不应存在依赖关系,而应直接依赖于主键,这样可以有效避免数据冗余和更新异常。

SuperType 和SubType

超类型/子类型设计是一种面向对象的设计模式,它通常用于处理具有共同属性集合的一组对象。超类型是一种通用模板,它定义了属性、方法和行为,而子类型是超类型的特定实现,可以继承超类型的属性和方法并追加、修改或重写它们以满足其独特的需求。

例如,假设我们有一个汽车制造商,他们生产各种类型的车,例如轿车、卡车和摩托车。每种车都有一些共同的属性,例如车身颜色、发动机类型、最大速度等。我们可以使用超类型/子类型设计来创建一个超类型,它包含所有共同属性,并创建子类型以处理每种车的特定属性和需求。
 

OLTP 和 OLAP  的不同点在什么地方?

对比项OLTPOLAP
面向应用日常交易处理查询、分析、决策
访问模式简单小事务、操作少量数据复杂查询,大量数据
数据当前最新数据历史数据
数据规模GBTB-PB
数据更新实时批量
数据存储满足3NF反范式,星型模型
用户操作人员、低层管理人员决策人员,高级管理人员
DB设计面向应用面向主题
软件技术数据库数据仓库

MOLAP 还是ROLAP

ROLAP 是指关系数据的关系在线分析处理。
MOLAP 被称为多维在线分析处理,它通过多个数据维度来实现。

 ROLAP 是 关系型 OLAP
其中数据以传统方法排列,如数据仓库中的行和列。它以多维形式对用户可见和访问。为了将其显示为多维视图,数据被设计为支持数据收集和存储的元数据的相关层。它动态地处理复杂的查询。它比 MOLAP 慢,其中 ROLAP 以更高的速度处理大量数据。

MOLAP 是一种多维 OLAP
其中在注册系统上分析数据。数据排列在多维数组中。在数据库管理中加载数据时,该数组携带预定义的数据。MOLAP 系统是在应用层实现的,当用户发送任何请求时,它以最短的响应时间获取数据。

关系模型的表达能力不包括创建特定数据类型的维度和度量主题。基本元素包括完整性、属性、关系,主要应用于星型模式。
ROLAP 使用 SQL 作为其功能语言来获取数据并对其进行处理,而MOLAP 使用稀疏矩阵技术以多维数据立方体的形式从多维数组中获取数据。
ROLAP 响应时间慢,因为它显示任何数据的多维形式,但 MOLAP 非常快,因为它不显示任何多维视图。
ROLAP 和 MOLAP 都处理复杂的查询,并有其独特的性能。如果用户想要任何快速响应系统,他可以采用 MOLAP

对比ROLAPMOLAPHOLAP
首字母缩略词关系在线分析处理多维在线分析处理混合在线分析处理
储存方法数据存储在主数据仓库中数据存储在注册数据库MDDB上数据存储在关系数据库中
获取方法从主存储库获取数据从专有数据库中获取数据从关系数据库中获取数据
数据整理数据以带有行和列的表格形式排列和保存数据以数据立方体的形式排列和存储数据以多维形式排列
体积处理大量数据处理保留在专有中的有限数据可处理大数据
技术它适用于 SQL它适用于稀疏矩阵技术它同时使用稀疏矩阵技术和 SQL
设计意图动态访问静态访问动态访问
响应时间它具有最大响应时间它具有最短响应时间需要最短的响应时间

如何来选择和建立实体?

在逻辑模型的基础上,物理模型的开发还需要做哪些工作?

解决逻辑抽象、添加属性细节、添加属性引用对象、指定代理键、逆范式化、建立索引、建立分区、创建视图

如何解决SCD问题

解决方法:保留原始值、改写属性值、增加维度新行、增加维度新列、增加历史表、使用拉链表保存历史快照

哪里可以找到各种建模标准

1)数据建模和数据库设计的标准交付成果的清单和描述。
2)适用于所有数据模型对象的标准名称,可接受英文缩写和非常见单词的缩写规则列表。
3)所有数据模型对象的标准命名格式列表,包括属性命名和列命名。
4)设计和维护交付成果的标准方法的列表和描述。
5)数据建模和数据库设计角色和职责的列表和描述。
6)数据建模和数据库设计中涉及的所有元数据属性的列表和描述,包括业务元数据和技术元数据。例如,准则可以设定数据模型中包含的每个属性的预期血缘关系展现内容。
7)元数据质量期望和要求(见第13章)。
8)使用数据建模工具的准则。
9)准备和指引设计评审的准则。
10)数据模型版本管理的指导原则。
11)禁止或需要避免的事项列表。

2.4 数据安全

国家相关法律

《国家安全法》、《网络安全法》、《数据安全法》、《个人信息保护法》

数据分类分级

数据跨境

数据安全的核心内容

数据安全和数据交易

隐私计算

全方位的数据安全管理包括哪些内容

chatGPT有哪些可能的数据安全和合规问题?如何解决?

数据安全制度应该有哪些内容?数据安全细则应该有哪些内容?

2.5 主数据

数据分散、且标准不统一、大量不一致,相互覆盖、质量不高、主责部门不清、新增变更流程不明确等问题,从而严重影响客户主数据的应用。

数据标准和主数据的关系

数据标准是 “规则”,主数据是 “核心数据实体”;数据标准定义主数据的 “如何管、如何用”,主数据体现数据标准的 “落地效果”。

维度数据标准主数据
核心定义企业统一制定的、约束数据全生命周期的 “规则集合”(格式、口径、质量、安全等)企业核心业务实体的 “基准数据”(唯一、稳定、跨系统共享),是业务活动的基础载体
本质属性规范性、制度性(“数据的法律 / 标准”)实体性、基础性(“数据的核心资产”)
覆盖范围所有数据类型(主数据、交易数据、参考数据、元数据等)特定核心实体(客户、供应商、产品、物料、组织架构等)
核心目标统一数据的 “语言规则”,确保数据的一致性、准确性、合规性统一核心实体的 “唯一视图”,消除数据冗余、冲突,支撑跨系统协同
典型示例客户编号格式为 “C+8 位数字”、产品名称禁止特殊字符、订单状态枚举值规范黄金客户档案、统一产品目录、集团组织架构清单

主数据如何识别

主数据的识别是主数据管理(MDM)的起点,核心逻辑是:筛选出企业内跨系统、跨业务、长期稳定且对核心业务运转至关重要的 “基准实体数据”.结合业务属性、技术特征、管理需求三维度

1、实体:是否共享。
2、属性:重要的或相对稳定的属性。
3、最大公约数原则。

主数据如何建设

1、识别驱动因素和业务需求。
2、评估和评价数据源。
3、定义架构方法。
4、建模主数据。
5、定义管理职责和维护流程。
6、建立治理制度;推动主数据使用。

对于存量系统,如何落地主数据标准体系?

主数据工具应该有哪些功能?

数据整合工具、数据修复工具、操作型数据库(ODS)、数据共享中心(DSH)或专门的主数据管理应用。
主数据管理工具通常包括主数据建模、主数据采集、主数据管理、主数据查询/共享等功能。

主数据管理的大概活动和过程有哪些?

1、定义驱动因素和需求

2、评估和评估数据源

3、定义架构方法

4、建模数据

5、定义管理和维护流程

6、制定治理制度

7、实现数据共享/集成服务

  1. 获取共享数据源
  2. 发布参考数据和主数据

2.6 数仓和BI

Inmon 和 Kimball 关于数仓的差别有哪些?

关系型二维表,矩阵型多维

Inmon强调整体规划和数据质量,但建设周期长;Kimball注重快速交付和查询性能,但存在冗余风险。

对比维度Inmon(自上而下)Kimball(自下而上)
建模思想企业级统一建模业务驱动的维度建模
数据组织第三范式星型模型 / 雪花模型
架构模式ODS →EDW→数据集市数据集市→数据仓库
一致性强,企业级统一弱,可能存在冗余
建设周期长,投入大短,快速见效
使用场景大型集团,跨部门分析中小企业,业务快速迭代
优势数据标准化,质量高查询性能好,贴近业务需求
劣势建设慢、成本高荣誉多,难以全局整合

数仓的主要组件内有哪些?

核心组件包括:源系统、数据集成、数据存储区域、ODS、数据集市、数据立方体

源系统:将要接入数据仓库/商务智能环境的数据。包括CRM、财务系统、人力资源等业务系统;还包括来自供应商和外部来源数据,以及DaaS、网页内容和各种大数据计算结果。

数据集成:包括ETL(ETL过程负责从数据源中提取数据,进行必要的转换和清洗,然后加载到数据仓库中)、数据虚拟化及将数据转化成统一格式并放置到统一位置的其他技术。

数据存储区域:数据仓库包括数据暂存区、参考数据和主数据一致性维度、中央数据仓库。

ODS:操作型数据存储是中央数据仓库持久化存储的某个数据来源副本,支持更低的延迟。操作型数据存储仅包含某个时间窗口的数据,不是全部历史记录。

数据集市:数据集市是一种数据存储类型,通常用于支持数据仓库环境的展示层,也用于呈现数据仓库的部门级或功能级子集。

数据立方体:主要有3种支持OLAP的经典模式:关系型、多维性及混合型。

数据分析的自助服务是什么?

自助服务是商务智能产品组合中的一个基本交付方式。自助服务一版是在受管理的门户中引导用户活动,根据用户的权限提供多种功能,包括消息传递、报警、查看预定的生产报表、与分析报表互动、开发即席报表,以及仪表盘和积分卡等。

问数服务

数仓、数据湖、数据中台、数据空间的相同点和不同点有哪些?

对比项数据仓库数据中台数据湖数据空间
存储结构主题式平面平面分布式(去中心化)
存储方式结构化结构化非结构化多类型(结构化/非结构化,本地存储)
实时支持历史分析实时分析实时分析事实协同计算
是否预定义需要需要不需要动态定义(按需授权)
安全和权限一般极高(加密/确权/追溯)
分布式支持不支持支持支持原生支持(多节点协同)
技术成熟度成熟成熟不成熟发展中

数仓的数据湖的架构图应该是怎么样的?

数仓的一些疑难问题,比如SCD、星型和雪花模型的融合等?

指标体系

指标口径清晰、统一规范;支持用户的自助灵活用数;有效控制报表开发成本;

保障指标合理落地加工实施。

实现指标应用,满足不同类型用户需求

建设指标长效管理机制,推动指标体系完善。

数据体系的核心,连接基础数据和数据应用的桥梁。

数仓建设的主要活动

理解需求
  1. 考虑业务目标和业务战略
  2. 确定业务领域并框定范围
  3. 访谈,了解业务人员需求,问题及访问的数据
  4. 掌握关键指标和计算口径
定义和维护DW和BI架构
  1. 确定数据仓库/商务智能技术架构
  2. 确定数据仓库/商务智能管理流程
开发数据仓库和数据集市
  1. 建立源到目标的映射关系
  2. 修正和转换数据
加载数据仓库
  1. 工作量最大的部分
  2. 延迟要求、源可用性、批处理时间窗口
  3. 数据质量问题
实施BI产品组合
  1. 根据需要对用户进行分组
  2. 将工具与用户要求匹配
 
维护数据产品
  1. 发布管理
  2. 管理数据产品开发声明周期
  3. 监控和调优加载过程
  4. 监控和调优商务智能活动和性能

2.7 元数据

2.7.1 应该从哪里去梳理和收集元数据?特别是数仓的元数据应该怎样梳理?

应用程序中元数据存储库;业务术语表;商务智能工具;配置管理工具;数据字典;数据集成工具;数据库管理和系统目录;数据映射管理工具;数据质量工具;字典和目录等

元数据梳理:

业务元数据、技术元数据、操作元数据

业务元数据:每段ETL、表背后的归属业务主题;

业务描述:每段代码实现的具体业务逻辑

标准指标:类似于BI中的语义层、数仓中的一致性事实;

标准维度:通标准指标,对分析的各个维度定义实现规范化、标准化。

 

技术元数据:可以从数据源元数据、ETL元数据、数据仓库元数据、BI元数据。

操作元数据:错误日志、服务水平协议的要求和规定;数据归档、保留规则和相关归档文件。

2.7.2 怎么应用元数据?

数据仓库与数据湖管理,记录数据的来源、结构和质量,帮助实现数据的整合和管理

数据库管理:元数据描述数据库的结构、表、字段等信息,帮助数据管理员优化行呢个和维护数据库。

元模型是什么?

元模型是一个元数据存储库的数据模型。定义元数据战略和理解业务需求的第一个设计步骤。可以根据需要开发不同级别的元模型;高级别的概念模型描述了系统之间的关系,低级别的元模型细化了各个属性。作为一种规划工具和表达需求的方案,元模型本身也是有价值的元数据源。

数据资产目录和元数据目录是什么关系?

数据资产目录不等于元数据目录。

数据资产目录建立在元数据基础之上。

元数据上线后如何维护?

1、明确维护责任与流程:

角色分工,标准化维护流程

2、核心维护内容和策略

技术元数据维护:自动同步为主,手动修正为辅

业务元数据维护:业务术语标准化;指标元数据动态更新

操作元数据维护:聚焦数据访问日志、任务余小宁状态、SLA达成情况。

分类与标签维护

3、监控与异常处理

建立元数据监控体系:自动监控指标;告警机制

异常处理流程:缺失类异常;错误类异常;冲突类异常

4、定期审计:周期性审计

 

元数据系统应该具有哪些功能?

元数据系统覆盖元数据采集、存储、管理、应用、治理全流程。

1、核心基础功能:

1.1 多源元数据采集功能

1.2 元数据存储与管理:统一元数据模型、版本管理、存储能力

1.3 元数据检索与查询

2、核心治理功能

数据血缘分析功能:血缘类型、可视化能力、血缘精度

数据分类与标签管理功能:标签体系管理、标签赋值、标签应用

业务术语与指标管理功能:业务术语库、指标管理、数据字典

3、运维与治理支撑

监控与告警功能、权限与安全管理功能、工作流与审批功能;

4、高级应用功能

数据影响分析、智能推荐与辅助功能、集成与开放能力

如果元数据没有管理好,会怎样?

  1. 冗余的数据和数据管理流程
  2. 重复和冗余的数据字典、元数据促成农户库和其他元数据存储
  3. 不一致的数据元素定义和与数据滥用相关的风险
  4. 元数据的不同来源和版本之间互相矛盾冲突,降低了数据使用者的信心
  5. 元数据和数据的可靠性受到质疑。

元数据应该包括数据的哪些属性?

数据质量和数据安全属性

一、基础标识属性(所有元数据通用)
用于唯一识别元数据对象,是元数据管理的基础:
唯一 ID:系统分配的全局唯一标识(如数据表 ID、指标 ID),避免重名混淆;
名称:元数据对象的业务 / 技术名称(如 “用户订单表”“order_table”“GMV 指标”);
别名 / 简称:便于日常使用的简化名称(如 “日活” 代指 “日活跃用户数指标”);
类型:元数据对象的分类(如表 / 字段 / 指标 / 术语 / ETL 任务);
状态:当前生命周期状态(草稿 / 生效 / 失效 / 归档);
创建时间 / 更新时间:元数据的创建及最后修改时间;
负责人 / 所属团队:业务 / 技术责任人及归属部门(如 “订单表负责人:张三,所属零售业务部”)。

集团数字化转型应该从哪个领域开始?

应该从元数据开始

“您的支持是我持续分享的动力”

微信收款码
微信
支付宝收款码
支付宝

页面大纲关闭
目录关闭