- 记录
- 相册
- 主题
- 分享
- 精华
- 积分
- 1318
- 好友
- 注册时间
- 2023-4-25
- 帖子
- 互助币
- 枚
- 爱心币
- 枚
- 经验值
- 点
- 贡献值
- 点
- 水表量
- 升
- 推广币
- 元
- 最后登录
- 1970-1-1
- 在线时间
- 小时
|
导读BI平台的具体问题可以到我们网站了解一下,也有业内领域专业的客服为您解答问题,为成功合作打下一个良好的开端!https://www.hengshi.com/
近期,衡石成功举办了HENGSHISENSE41线享会,分享会上衡石科技CEO刘诚忠,衡石科技联合创始人&首席架构师赖林华围绕整个数据分析市场、行业和衡石的创新为主题进行分享。上期的推文我们分享了衡石科技CEO刘诚忠带来的《企服市场新物种:何为数据分析PS》。
本期推文我们来看看衡石科技联合创始人&首席架构师赖林华带来的《统一数据管理下的敏捷数据分析》分享。
数据分析典型架构
众所周知,数据分析的起点是业务系统原始数据。这其中包括APP数据、CRM数据、订单数据、仓储数据、调查问卷等。这些数据在数据分析流中是分层存在的,如ODS、DWD、DWM、DWS。ODS是比较原始的,业务系统里用户的每一个点击,每一次下单,ODS层都需要忠地进行数据同步。明细数据会通过不同的ETL任务进到数据仓库,每一层数仓聚合粒度是不一样的。DWD进行数据的清洗与聚合。DWM会按照天或者每小时进行轻度汇总。DWS则是按照业务线、产品、部门进行进一步的汇总。这些数据比较终会通过ETL加工成不同的业务主题。这是数据分析的典型架构。数据分析ETL过程
典型架构中有很多ETL的过程。这些过程通常需要开发工程师开发,但是需求方并不是开发工程师自己,它拥有特定的需求方。需求方本身不会写代码,所以大量需求沟通必不可少。沟通中的理解不到位会带来数据处理时的数据失真,口径不匹配,以至于比较终交付结果不理想。即使开发流程非常顺利,成功交付。但一次交付的完成并不代表整件事情的结束,而是下一个“噩梦”的开始。需求是会变更的,每一次变更意味着整个流程得再次重复执行。传统ETL现数据分析的痛点
ETL架构下法满足敏捷的分析需求:1、传统的ETL数据管道每条都是定制的,计算前置、以空间换时间敏捷性极差:新增数据源或更改数据模型逻辑时,难以及时响应、速返回分析结果难以复用性:提取与转换紧耦合,每条ETL管道都是一个复杂的定制方案,扩展非常困难2、业务团队需求法及时响应,IT团队疲于奔命<="-:0;-:0;:0;-:;"
ETL的趋势
传统的ETL具有历史积累的合理性。它的是高度定制化的,在前端生产数据的时候能够把数据量聚合到非常小,这样一来便可做到展示时的速响应。但重点是,如果满足不了业务分析需求的话,前端展示的与慢便失去了其意义与价值。所以我们不能说ETL这个方式被完全取代了。但是可以说ELT的趋势是在上升的,更多的厂商、企业正在尝试用ELT去现数据平台的规划。ELT趋势上升原因:1、企业数字化转型:传统数仓针对小规模数据的存储和计算能力逐渐不能满足企业需求2、新业务新应用速迭代:传统数仓高度聚合的数据,不能满足更多针对用户维度行为的分析需求,针对明细数据的分析需求不断涌现3、L数据湖性能的提升:随着分布式软硬件的发展,针对海量数据的批量、A的查询技术成熟衡石数据分析产品架构
ELT和ETL架构在数据源多源异构方面差异不大。数据同步中EL方式下会弱化T的部分。ETL跟传统架构不一样的地方在于ODS、DWD、DWS数据不需要被分在不同的地方,比如ODS数据量比较大,面向的是顺序读写存储,所以会放在H或是S里面;DWD放在里面;DWS放在MSQL里面。这是传统的做法。在新的方法论下这些分层可以统一在L里面进行存储和管理。模型指标层承载了ELT中T后置的任务。在数据源之后,我们可以直接对接模型指标层去做关键业务系统的模型关系构建,以及运算逻辑的确定。这些模型会形成主题数据包。数据包包含了模型和指标公式。我们比较终可以基于已经构建好的数据包去支撑业务,比如基于数据包去做技术分析,做大屏或者做一些数据查询。当然也可以把它形成API或者将数据同步到各种下游。衡石定义的是标准化的模型,这样的模型能够下推到底层不同的L里面,能够做到完全一致的行为和结果。技术选型时能够比较开放的去选择业务上面比较合适的架构进行落地,再也不需要绑定在某一种技术上面,这是未来的发展趋势。 |
|