个推TechDay治数训练营直播回顾:企业数据智能体系搭建之数仓建设及数据建模

合肥冉想营销策划 时间:2025-05-03 01:04:32

前段时间 ,2022年个推TechDay"治数训练营"系列直播课第六期圆满举办。个推资深大数据数据研发工程师为小伙伴们深入浅出地简要介绍 了数据数据仓库的前世今生另一与此同时数据数据建模的用上方式多。

本文对"治数训练营"第六期《数据数据仓库与维度建模》的干货部分内容针对市场 了总结 ,另一与此同时也挑选了直播群体之间精彩提问我做Q&A梳理 ,带小伙伴们共同回顾首期课程。

01数据数据仓库快速入门

数据数据仓库(Data Warehouse)  ,简称"数仓" ,在大数据数据从业者绕不开的这许多概念。"数据数据仓库之父"Bill Inmon最早大部分针对市场 提出数仓的概念 ,并表示"数据数据仓库是这许多面向主题的、集成的、不太稳定的、反映就是历史变化中的数据数据集合  ,用于全面支持 管理决策"

另一与此同时  ,大数据数据架构专家Ralph Kimball在《The Data Warehouse Tookit》一书中  ,也对数仓针对市场 了定义:"数据数据仓库是这许多将源子系统数据数据抽取、清洗、规格化  ,直到提交到维度数据数据存储的子系统  ,为决策的制定应用提供查询和分析及其他功能的支撑和成功完成"

Bill Inmon对数仓的定义更强调整体呈现特性  ,Ralph Kimball就是从针对市场 流程整体呈现来定义数仓。不管在哪定义 ,那就是经常会 从中我看到民营企业建设方面数据数据仓库的意义重大。民营企业针对市场 建设方面数仓  ,另一与此同时也可将分散在各业务子系统的数据数据针对市场 集中化管理  ,打破数据数据孤岛;也可为后续高效分析及和应用数据数据  ,针在大数据数据赋能业务迅速发展奠定做基础。

02数仓建设方面与数据数据建模

原因在于在于  ,民营企业要如何建设方面数据数据仓库?要如何建设方面这许多贴合业务得到产品需求的、高效、稳定、好选用时数据数据仓库?那就是也可两个决定数据数据模型的再选择和数据数据建模的两个难题。

"数据数据建模"是指对实体另一与此同时实体和实体群体之群体之间群体之间针对市场 数据数据化描述和抽象的过程中。"数据数据模型" ,就是指活动和存储数据数据的方式多。

当前主流的数据数据建模方式多有两种 ,三个是范式建模和维度建模:

范式建模

范式建模由Bill Inmon大部分针对市场 提出  ,指走在民营企业整体呈现面向主题的抽象  ,那则之类般针对市场 E-R实体群体之间模型将事物抽象为"实体""属性""群体之间" ,来并表示事物和事件双方关系。范式建模并非针对市场 某个详细业务流程中实体对象群体之间的抽象  ,它也可建模人员全面地、整体呈现地认识简要介绍 民营企业的业务和数据数据 ,另一与此同时针对市场 周期长  ,对建模人员的技术实现能力大部分针对市场 提出也不太高。

维度建模

维度建模由Ralph Kimball大部分针对市场 提出 ,主张从分析及决策的得到产品需求出发构建模型 ,为分析及得到产品需求增值服务。原因在于在于它重点不关注要如何针对市场 户更快速地成功完成数据分析及及  ,另一与此同时保有较是好 大规模复杂查询的响应性能。相较范式建模  ,维度建模建设方面周期短 ,全面支持 敏捷迭代  ,原因我可能会 对数仓架构我做多复杂的选用理念

在构建数仓时  ,那就是要很据详细的数据分析及及场景和业务处理方法子系统来再选择其他相关的数据数据建模方式多。这些 ,就OLTP子系统(On-line Transaction Processing:联机事务处理方法)诚然  ,原因在于在于其原因是面向随机读写的数据数据操作针对市场  ,不关注事务的处理方法  ,原因在于在于那就是其他推荐针对市场 OLTP子系统及延续传统 数据数据库的民营企业针对市场 范式建模的方式多来选用理念数据数据模型 ,以两个难题在事务处理方法之中数据数据冗余和一 致性两个难题。而OLAP子系统(On-line Analytical Processing :联机分析及处理方法)面向批量读写数据数据的操作针对市场 ,不不关注事务处理方法一致性  ,原因是不关注数据数据的整合另一与此同时大数据数据查询和处理方法之中性能  ,原因在于在于原因选用维度建模的方式多。

详细要如何针对市场 范式建模和维度建模呢?那就是结合方式 案例三个整体呈现。

03范式建模方式多及实例剖析

不属于整体呈现范式建模在大部分过程中。

在针对市场 范式建模时  ,那就是常会要遵从不同人的规范大部分针对市场 提出选用理念出合理的模型  ,许多不同人的规范大部分针对市场 提出那就是"范式"。当前行业发展中存之类范式、二范式、三范式等不同人的模型建设方面规范。越高的范式带给的数据数据库冗余越小  ,许多在数据数据计算与此同时会更复杂。民营企业原因选用三范式建模  ,在可以保证灵活度另一与此同时数据数据计算慢就是另一与此同时  ,降低数据数据处理方法的复杂度。

范式建模的过程中也可被拆解为如下四步:

1. 抽象出主体

2. 梳理主体群体之群体之间群体之间

3. 梳理主体的属性

4. 画出E-R群体之间图

这些 ,那就是要针对市场 范式建模的针对市场 选用理念某课程管理子系统的数据数据模型。

该子系统原因用上管理某教师中教师、教师中和课程等无关数据数据  ,涉及课程选修、考试成绩排名、教师授课、教师中班级等与此同时。好吧们不属于要梳理出实体  ,为教师、课程、教师中、班级;与此同时梳理出实体群体之群体之间群体之间  ,之类教师讲授课程、教师中选修课程、教师中隶属班级等;直到要罗列出各实体和群体之间的属性  ,这些"教师中"这许多实体的属性有姓名、性别、年龄等  ,"教师中选修课程"这许多群体之间的属性有选修时间很长、总课时等;第六步  ,就是画出E-R图  ,用矩形并表示"实体"  ,用菱形并表示"群体之间"  ,用椭圆形并表示"属性"  ,以可视化的针对市场 清晰展示出主体和主体群体之群体之间群体之间。

04维度建模方式多及实例剖析

相较范式建模  ,维度建模稍为复杂  ,之类事实表和维度表两块部分内容。

事实表

不属于看事实表。事实表分三种 ,之类事务性事实表、周期性快照事实表、累计快照事实表。

  • 事务性事实表原因用两条记录并表示某个时间很长点已发生件事件或行为规定 。这些电商业务场景之中订单支付业务  ,原因就选用事务性事实表来活动和存储数据数据。

  • 周期性快照事实表之类条记录描述的就是这许多实体和一 一段时间很长内的正常状态或现状  ,这些某顾客每月的积分余额就不属和一 条不属于的周期性快照事实表记录。

  • 累计快照事实表之类条记录就是对某业务流程中已发生的多个事件的累计记录  ,原因是原因在于在于得到产品需求某个流程节点运转效率的统计得到产品需求。

那就是以这许多事务性事实表的选用理念过程中为例来认识简要介绍 事实表的选用理念方式多:

1. 再选择与数据分析及及得到产品需求无关的业务过程中。"业务过程中"是指在业务流程之中可拆分的行为规定 事件。这些  ,电商业务场景下 ,购物的业务流程中就之类加购、下单、支付、商家发货、所有用户确定一 收货等业务过程中。好吧们要分析及销售额  ,那"支付"那就是必选的业务过程中。

2. 声明粒度。那就是要尽量再选择最细粒度  ,精详细义事实表的每个区域行所并表示的业务含义  ,以可以保证事实表有非常很大灵活性。这些  ,所有用户原因在于在于和一 许多订单进去准备购买多个商品  ,那每个区域准备购买成 商品那就是这许多子订单 ,那则之类般再选择将子订单成为声明粒度。

3. 详细维度。维度是指业务过程中所处的生活环境各种信息  ,这些所有用户和一 个时间很长准备购买成 某个店铺的某个商品 ,那店铺所属行业发展、商品所在类目等均也可被并表示是维度。

4. 详细事实  ,即详细业务过程中的度量指标。这些"支付"这许多业务过程中的度量指标为支付金额  ,更复杂的电商业务场景下  ,原因在于在于还之类分摊邮费、折扣金额等指标。

也可基本说明就是  ,每个区域数据数据仓库都在内这许多也可多个事实表  ,事实表是对分析及主题的度量  ,它在内了与各维度表相双方关系的外键  ,并针对市场 Join针对市场 与维度表双方关系

维度表

维度表就是所有用户分析及数据数据的窗口  ,记录了事实表中无关事务、事件的属性及属性含义。

维度表的选用理念过程中 ,原因分为如下四步:

1. 再选择维度。这些要生成这许多商品维度表  ,好吧们再选择的维度那就是商品维度。

2. 详细主维表。这些要建商品维度表  ,那主维表那就是图片频道于业务子系统的商品表。

3. 详细无关维度表。主维表详细直到  ,其而他无关维度表那就是随之详细。这些商品维度表的无关维度表有商品类目表、所属其品牌表、商品所属行业发展表等。

4. 详细维度属性。许多属性原因图片频道于主维表和无关维表。那就是将主维表和无关维表的属性集成 ,针对市场 不同人属性合并(这些  ,商品类目表和所属其品牌表中原因在于在于经常会 较为基本说明属行业发展属性 ,好吧们就也可对所属行业发展这许多属性针对市场 合并) ,直到将几经波折 得不到的属性放到要生成的维度表里。

另一与此同时 ,本期个推TechDay"治数训练营"还对范式建模与维度建模在大部分原则、建模之中常见两个难题(这些范式建模之中传递依赖两个难题、维度建模之中缓慢变化中维两个难题等)、数仓分层等针对市场 了详细阐述  ,欢迎不关注个推技术实现实践公众号 ,Get直播回放视屏 !

其他推荐书目

当这许多公司客观存在在战略上两个决定做云计算在大数据数据增值服务后  ,要如何将该战略针对市场 逐步分解  ,几经波折 落地针对市场 ?这这些涉及技术实现构建、运营管理、活动技术实现能力建设方面等一系列活动不断 ,有哪些特点方式多论和实践可供借鉴?一定会本书带给您带给灵感!

不关注个推技术实现实践微信公众号  ,后台回复"数仓"  ,获取本期直播课件~



版权声明:以上文章中所选用的图片及文字来源于网络以及用户投稿,由于未联系到知识产权人或未发现有关知识产权的登记,如有知识产权人并不愿意我们使用,如果有侵权请立即联系:123456789@qq.com,我们立即下架或删除。

热门文章