发布网友 发布时间:2022-09-21 16:24
共1个回答
热心网友 时间:2023-11-18 21:30
二十一世纪是生物的世纪,这句话只要上过高中的小伙伴应该都知道,当初选择大学专业也是受其影响。大一、大二兴致勃勃,乖乖学习,成绩将就,到了大三逐渐发现这并非自己所喜欢的专业(生物医疗专业,但当时想研究基因,脑科学)。并且学校主要专业是通信、计算机等,教学重心根本不在生物医疗上,自己对着冷冰冰的医疗仪器没有什么兴趣,对此非常失望。
大三到来,面临着就业的压力,到底另谋出路还是坚持现在?结合自身特点,加之参加过几次数学建模比赛,发现数据是非常有意思的事物。网上各种调查,发现倒是有数据分析师的职位与数据挂钩,但是有技能要求,经验要求。无意之中,了解到一个在线教育平台(mooc,当时并不是非常流行)。这犹如给我带来了希望,无论逃课还是下课,都泡在图书馆,上Coursera,学习数据课程,才踏上数据道路。数据因业务而产生,不了解业务也就不了解数据,也就无法利用数据推动业务,因此自己也放弃考研,走上数据岗位获取业务经验,更好的学习数据。
前言:数据数据,存储过去,预测未来
实习之初,由于部门人少,虽说岗位是数据开发但做的事情常常鱼龙混杂,了解运营需求、调取业务数据、开发日常报表、处理第三方产品数据,大大小小的事情都干过,也因此对业务有了不少了解。后来因公司业务快速发展,原有的数据仓库架构已不能正常支持日常需求,自己便转向数据仓库开发工作,提升公司数据质量。
数据仓库,顾名思义就是存放数据的仓库,英文名称Data Warehouse。
首先了解一下常用的数据架构,如下所示
可以看出数据仓库处于核心位置,多源数据集成、*数据建模、数据清洗都在数据仓库内部完成,为后面报表展示、数据分析、数据挖掘打下坚实的基础,因此数据仓库至关重要。
数据仓库的起源可以追溯到计算机与信息系统初期,它是伴随着支持决策系统出现而出现。
这里的数据模型设计并不是数据挖掘中的数据建模,它是一种数据组织方式,将数据加以整理,便于管理使用。构建数据模型是为了抽象实体与实体之间联系关系,从而表示事务关系的一种映射。
当我们在完善数据仓库时,需要根据业务选择合适的模型进行设计,以满足数据上的性能。当公司业务非常复杂时,需要联合使用多种模型方式处理数据。
有了数据模型之后,需要将数据进行分层,如下图所示
数据仓库的数据质量既是数据使用的基础也是数据平台发展的前提,因而不能掉以轻心。数据质量的保障既需要保障数据准确,同时也要保障数据时效。那么集群资源充足、网络带宽高就是数据质量保障的基础条件之一。
从数据仓库架构来看,数据质量产生主要有三个方面:
那么对应解决方案也主要在这三个方向:
数据仓库之旅,未完待续。。。。