您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息
三六零分类信息网 > 阿里分类信息网,免费分类信息发布

阿里大数据工程师:教你如何快速的搭建数据库

2022/4/15 4:14:27发布83次查看
本文来源:大数据工程师(今日头条作者)原文链接:https:///a6508682747257553411/
数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
下面我们来讲大数据开发核心流程。
当我们接到一个需求,首先会进行需求分析,然后做工作流设计,比如这个任务是什么时候跑的、依赖于哪些业务。工作流设计完成后进行数据采集和数据同步。接下去就是数据开发,我们提供了web-ide,支持sql、mr、shell和 python等。然后我们提供了冒烟测试的场景,测试完成后发布到线上,让它每天定时进行自动调度,并进行数据质量监控。以上步骤都完成后,就能把我们的数据环流到业务系统库,或者用quickbi、datav这些工具进行页面展现。
我们设计的任务是离线的,每天会在12点的时候把设计的任务变成一个实例快照。目前我们的任务依赖在业内也是最先进的。
现在最常见的需求就是每天有日报,每周要写周报,每月要写月报。为了节省资源,就可以使用日报的数据直接转成周报或月报。
线上系统在每天6点的时候要保证数据已经回笼到业务系统,系统要开始使用了。
如上图所示,假设有d和e两个任务,它们依赖于b和a。任务d的运行时间是1.5小时,e是2小时。我们必须确保b每天在4点之前把b的任务运行完成,一般正常运行时间是2小时。那就要保证a每天任务完成的时间不晚于2点。如果a的运行时间是10分钟,到1点的时候发现a的任务失败了,这时就能计算出a还剩下多少余量,我们可以进行人工监督排查。在1:50之前人工介入,从而保证任务d和e能在6点前准时产出。
总结
如图所示,maxcompute是图上小人的“心脏”,所有运行的任务都在maxcompute里面。调度是数据架构的“大脑”。“眼睛”是数据监控,目前在数据架构平台上它还是一个“近视眼”,还没有正式推出。数据集成就像两只“手”,不停地从其它地方搬运数据。底层的开发环境和运维中心就像两条“腿”,保证整个数据架构平台走得更远。而数据质量就像是一个“人体健康中心”,也就是数据质量的监控。
程序员必备的碎片化学习神器牛x公司的开会方式,明天开始参照执行女程序媛与男程序猿的一天火爆全球的区块链到底是怎么一回事?一文带你看懂对开发来讲,业务重要还是技术重要?
阿里分类信息网,免费分类信息发布

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录