发布网友 发布时间:2022-04-20 06:53
共1个回答
热心网友 时间:2022-05-23 16:38
付费内容限时免费查看回答如今的小米不仅是一家手机公司,更是一家大数据与人工智能公司。随着小米公司各项业务的快速发展,数据中的商业价值也愈发突显。而与此同时,各业务团队在数据查询、分析等方面的压力同样正在剧增。因此,为帮助公司各业务线解决这些数据方面的挑战,小米大数据团队不断地尝试通过不同的技术手段打造新的解决方案。小米大数据,是一支以“融汇公司全景数据,通过数据驱动、AI 赋能公司核心业务”为使命的研发技术团队,目前主要负责设计、完善公司级数据仓库解决方案,提供完备及全链条的数据治理一站式平台,连通各业务线数据,开发通用的画像平台与分析引擎。小米大数据团队的目标,在于不断提升数据产品与服务品质,并依托数据科学、机器学习等技术赋能核心业务。
1业务团队亟需统一、低门槛的 OLAP 解决方案
2012 年小米大数据团队成立之后,数据平台、用户画像等通用性的技术体系相继在公司内部建立了起来。然而由于业务需求的快速变化,新的挑战也不断随之出现,比如在*数据分析及 OLAP 需求中所遇到的诸多困难,就是其中的典型。
OLAP 的价值可体现在实现精细化运营、提升数据处理效率、改善数据可视化效果等多个方面。但小米公司内部的业务种类异常繁杂,各业务团队为了具备*数据分析能力而各自建立了独立的 OLAP 分析系统。这些 OLAP 引擎大多是采用指标数据先进入 MySQL,再在前端进行展示的方法,而这样就将面临以下问题:
将面临以下问题:
基于 MySQL 的架构,在大数据上的查询效率低下;
业务间 OLAP 引擎不统一,数据管道冗长,数据复用率极低,开发工作周期变长,维护成本增加;
缺乏统一的维表和事实表,同主题下数据统计口径不一致;
新增业务需要投入较大的成本才能获得基础的 OLAP 能力。
经过充分的内部沟通之后,发现各业务团队的基础需求主要包括以下四点:
报表能力;
提供 OLAP 查询接口,支持各种即席分析;
尽可能降低使用门槛(ETL 以及查询的门槛);
初级阶段只需支持离线分析需求。
举例来说,其中最常见的一类需求是——开发资源相当有限的新业务,如何能在 1 天时间内开发出关键指标的*分析看板?在这种情况下又该如何系统性地设计、搭建技术架构与解决方案?
2以小米大数据平台核心——数据金字塔体系为基础
为了进一步满足各业务线的实际需求,小米大数据认为有必要基于自行设计的数据治理体系——“数据金字塔”,来开发一套端到端的 OLAP 解决方案。
数据金字塔体系的结构
数据金字塔,是小米大数据平台技术架构中的核心部分,其目标是承载、管理、促进小米公司内的数据生态环境。该体系可将数据由下至上分布在源数据层、中间层、汇总层、应用层,共四个层面中:
源数据层:对来源于业务线的数据进行采集、存放等最粗粒度的处理工作。这些业务数据进入源数据层之前,需要遵循科学的打点规范并准备好数据同步策略及工具。
中间层:对源数据层的数据进行 ETL,合乎规范的数据表将被存放在该层中。数据表包含事实表和维表,事实表用于记录业务过程的事实数据,而维表则记录维度关系。事实表和维表都需要遵循严格的命名与操作规范。
汇总层:公司级或业务级的主题数据都归属于该层。典型的主题表往往会对跨业务线的多张中间表进行汇总。例如小米用户画像,就是来源于公司内部多项业务数据的挖掘汇总而成。主题表是业务数据的高度概括,基本上能满足业务团队 80% 以上的数据需求。
应用层:结合中间层与汇总层中的数据,对其进行优化,并开发定制化的数据能力与工具,或提供业务级甚至公司级的数据服务。
公司各业务线的在线服务日志以及其他数据源的数据(MySQL 等等),可通过数据流服务下沉到 HDFS、Ku、HBase 等引擎中,经过数据金字塔建模后再提供给业务团队使用。
热心网友 时间:2022-05-23 16:38
付费内容限时免费查看回答如今的小米不仅是一家手机公司,更是一家大数据与人工智能公司。随着小米公司各项业务的快速发展,数据中的商业价值也愈发突显。而与此同时,各业务团队在数据查询、分析等方面的压力同样正在剧增。因此,为帮助公司各业务线解决这些数据方面的挑战,小米大数据团队不断地尝试通过不同的技术手段打造新的解决方案。小米大数据,是一支以“融汇公司全景数据,通过数据驱动、AI 赋能公司核心业务”为使命的研发技术团队,目前主要负责设计、完善公司级数据仓库解决方案,提供完备及全链条的数据治理一站式平台,连通各业务线数据,开发通用的画像平台与分析引擎。小米大数据团队的目标,在于不断提升数据产品与服务品质,并依托数据科学、机器学习等技术赋能核心业务。
1业务团队亟需统一、低门槛的 OLAP 解决方案
2012 年小米大数据团队成立之后,数据平台、用户画像等通用性的技术体系相继在公司内部建立了起来。然而由于业务需求的快速变化,新的挑战也不断随之出现,比如在*数据分析及 OLAP 需求中所遇到的诸多困难,就是其中的典型。
OLAP 的价值可体现在实现精细化运营、提升数据处理效率、改善数据可视化效果等多个方面。但小米公司内部的业务种类异常繁杂,各业务团队为了具备*数据分析能力而各自建立了独立的 OLAP 分析系统。这些 OLAP 引擎大多是采用指标数据先进入 MySQL,再在前端进行展示的方法,而这样就将面临以下问题:
将面临以下问题:
基于 MySQL 的架构,在大数据上的查询效率低下;
业务间 OLAP 引擎不统一,数据管道冗长,数据复用率极低,开发工作周期变长,维护成本增加;
缺乏统一的维表和事实表,同主题下数据统计口径不一致;
新增业务需要投入较大的成本才能获得基础的 OLAP 能力。
经过充分的内部沟通之后,发现各业务团队的基础需求主要包括以下四点:
报表能力;
提供 OLAP 查询接口,支持各种即席分析;
尽可能降低使用门槛(ETL 以及查询的门槛);
初级阶段只需支持离线分析需求。
举例来说,其中最常见的一类需求是——开发资源相当有限的新业务,如何能在 1 天时间内开发出关键指标的*分析看板?在这种情况下又该如何系统性地设计、搭建技术架构与解决方案?
2以小米大数据平台核心——数据金字塔体系为基础
为了进一步满足各业务线的实际需求,小米大数据认为有必要基于自行设计的数据治理体系——“数据金字塔”,来开发一套端到端的 OLAP 解决方案。
数据金字塔体系的结构
数据金字塔,是小米大数据平台技术架构中的核心部分,其目标是承载、管理、促进小米公司内的数据生态环境。该体系可将数据由下至上分布在源数据层、中间层、汇总层、应用层,共四个层面中:
源数据层:对来源于业务线的数据进行采集、存放等最粗粒度的处理工作。这些业务数据进入源数据层之前,需要遵循科学的打点规范并准备好数据同步策略及工具。
中间层:对源数据层的数据进行 ETL,合乎规范的数据表将被存放在该层中。数据表包含事实表和维表,事实表用于记录业务过程的事实数据,而维表则记录维度关系。事实表和维表都需要遵循严格的命名与操作规范。
汇总层:公司级或业务级的主题数据都归属于该层。典型的主题表往往会对跨业务线的多张中间表进行汇总。例如小米用户画像,就是来源于公司内部多项业务数据的挖掘汇总而成。主题表是业务数据的高度概括,基本上能满足业务团队 80% 以上的数据需求。
应用层:结合中间层与汇总层中的数据,对其进行优化,并开发定制化的数据能力与工具,或提供业务级甚至公司级的数据服务。
公司各业务线的在线服务日志以及其他数据源的数据(MySQL 等等),可通过数据流服务下沉到 HDFS、Ku、HBase 等引擎中,经过数据金字塔建模后再提供给业务团队使用。