大数据常见名词整理
发布网友
发布时间:2024-09-30 15:42
我来回答
共1个回答
热心网友
时间:2024-10-05 11:32
大数据分析中,数据仓库是一个核心概念,它为企业决策提供支持。数据仓库(DW/DWH)是专门构建的,用于存储和管理来自多个源头的数据,以满足分析和决策所需。其主要特性包括:面向主题、集成整合、数据变化和不可修改性。数据仓库通常按照ODS(原始数据)、DWD(数据明细)、DWS(数据汇总)和ADS(数据应用)分层结构设计,以满足不同层次的需求。
数据仓库与数据湖、数据中台有区别。数据湖强调原始、非结构化数据的存储,提供更高的灵活性,适合机器学习任务;数据中台则关注业务需求,以服务形式提供数据,数据处理更侧重于ELT(提取-加载-转换)。星型、雪花和星座模型是数据仓库的三种模型,分别反映了数据的不同关联程度和冗余程度。
在数据仓库中,术语如维度、实体、度量、粒度、口径、指标和标签等都是构建分析模型的关键。维度表存储描述性的信息,实体代表分析对象,度量则是数值指标,粒度决定数据的细化程度,而口径和指标则定义了数据的取样和计算方式。标签则是对实体进行分类和标记。
数据仓库的表设计中,全量表记录最新状态,增量表只存储新增数据,拉链表和流水表关注历史状态的连续变化,快照表则是某一时间点的数据冻结。选择何种表型取决于数据量、更新频率和业务需求。