修正Inmon 和 Kimball 关于数仓的差别有哪些
数仓的主要组件有哪些
数据分析的自助服务是什么
数仓、数据湖、数据中台的相同点和不同点有哪些
数仓和数据库的架构图应该是怎么样的
数仓的一些疑难问题,比如SCD、星型和雪花模型的融合等
指标体系
活动
理解需求
- 考虑业务目标和业务战略
- 确定业务领域并框定范围
- 访谈,了解业务人员需求,问题及访问的数据
- 掌握关键指标和计算口径
定义和维护DW和BI架构
- 确定数据仓库/商务智能技术架构
- 确定数据仓库/商务智能管理流程
开发数据仓库和数据集市
- 建立源到目标的映射关系
- 修正和转换数据
加载数据仓库
- 工作量最大的部分你
- 延迟要求、源可用性、批处理时间窗口
- 数据质量问题
实施BI产品组合
- 根据需要对用户进行分组
- 将工具与用户要求匹配
维护数据产品
- 发布管理
- 管理数据产品开发声明周期
- 监控和调优加载过程
- 监控和调优商务智能活动和性能
OLTP 和 OLAP 的区别
| OLTP | OLAP | |
| 面向应用 | 日常交易处理 | 查询、分析、决策 |
| 访问模式 | 简单小事务、操作少量数据 | 复杂查询,大量数据 |
| 数据 | 当前最新数据 | 历史数据 |
| 数据规模 | GB | TB - PB |
| 数据更新 | 实时 | 批量 |
| 数据存储 | 满足3NF | 反范式,星型模型 |
| 用户 | 操作人员、低层管理人员 | 决策人员,高级管理人员 |
| DB设计 | 面向应用 | 面向主题 |
| 软件技术 | 数据库 | 数据仓库 |
数据仓库与数据湖的关系
| 特性 | 数据仓库 | 数据湖 |
| 定义 | 包括为任何支持商务智能目标的实现提供数据存储或提取操作的系统 | 存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输 |
| 数据来源 | 事物系统、运营数据库和业务条线应用程序等 | IoT设备、网站、移动应用程序、社交媒体、企业应用程序等 |
| 存储数据类型 | 主要处理历史的、结构化的数据,而且这些数据必须与数据参能哭事先定义的模型吻合 | 嫩能够处理所有类型的数据,如结构化数据,非结构化数据,半结构化数据等,数据的类型依赖于数据源系统的原始数据格式 |
| Schema | 设计在数据仓库实施之前(写入型) | 写入分析时(读取型) |
| 主要功能 | 处理结构化数据,将它们或者转化为多为数据,或者转换为报表,以满足后续的高级报表及数据分析需求 | 拥有足够强的计算能力用于处理和分析所有类型的数据,分析后的数据会被存储起来供用户使用 |
| 主要用途 | 批处理报告、BI、可视化 | 机器学习、预测分析、数据发现和分析,AI |
| 用户 | 业务分析师 | 数据科学家、数据开发人员和业务分析师 |
| 加载 | ETL | ELT |

三种经典的OLAP实现方法如下:
1)关系型联机分析处理(ROLAP)。ROLAP通过在关系数据库(RDBMS)的二维表中使用多维技术来支持 OLAP。星型架构是 ROLAP 环境中常用的数据库设计技术。
2)多维矩阵型联机分析处理(MOLAP)。MOLAP通过使用专门的多维数据库技术支持OLAP
3)混合型联机分析处理里(HOLAP)。它是ROLAP和MOLAP的结合。HOLAP实现允许部分数据以MOLAP形式存储,而另一部分数据存储在ROLAP中。控件的实现方式各不相同,设计师对分区的组合也各有不同。