阿里数据中台秘密武器OneData:一个体系节省数亿元成本

2016年5月16日


2016年数据库技术大会上,来自阿里数据中台的高级技术专家王赛对外分享了阿里大数据快速发展的秘密武器之一——OneData体系。

所谓OneData,即是统一建模方法的总称,从开始制定一致性的指标定义体系,到数据模型的规范设计方法体系,再到如何贯穿在整个数据研发流程中以及如何通过工具能够实施落地,帮助企业有效管理数据。不仅如此,OneData体系具有极强的扩展性,能够满足不同的业务需要。这也正是阿里去年所提出的“中台战略”中,非常重要的一个落地。


王赛介绍,在OneData体系出现之前,阿里数据内部有30000多个指标,仅UV就有10几种定义。即使是同一个指标,不同的bu也会根据自己的业务来进行不同的描述。王赛表示,这是由于在企业的发展初期,需要快速满足业务的需要,所以数据模式的发展更多是基于业务的垂直化发展。但长期来看,这会造成了相当大的资源浪费。同时,数据之间的引用,由于没有统一的定义,也会造成歧义,甚至是数据计算的不一致。从而也导致了数据使用上的效率低下等问题。“这已经不是某个企业所面临的问题,而是行业内的难题。”

数据仓库的数据模型技术从80年代开始就发展了成熟的技术,包括包括有“数据仓库之父”之称的Bill Immon、大数据行业权威专家Ralph Kimball等,都形成了自己的一套模型理论,且在工程领域备受推崇,大数据时代的快速推进,我们的数据基础架构从关系型数据库演进到了以hadoop技术体系为代表的分布式存储计算平台,数据场景的应用也从简单统计分析到复杂的商业应用,阿里的数据体系需要结合这些变化和自身的业务特点,进行升级和扩展,提出出了更适合企业发展的模型数据架构体系——OneData,并以此构建了阿里集团统一数据公共层。

OneData首先需要解决的问题,是数据指标的规范定义。通过对指标进行统一的标准化定义,极大减少了数据指标的歧义,从而保障了数据的正确性和一致性。与此同时,也提升了每个指标的共享性,同一个指标可以被各个业务部门引用,而不会再出现每个业务部门都各自建立一套指标的情况。

不仅如此,为了让数据指标能够更好被使用,OneData还在阿里内部沉淀出了一个强大的数据搜索引擎,号称“阿里内部的谷歌”。不同的数据指标都可以通过这个引擎被找到、被引用,甚至某个开发在某天提出了关于某个数据的问题,也能被搜索到,从而将找数据这件事变得体系化和结构化。

在解决了指标的规范定义之后,OneData还对数据模型进行了规范设计。什么样的数据要怎么清洗、怎么加工、是通过哪些维度来加工、形成指标之后怎么组合,怎么快速被应用,都有严格的规范。这一整套的规范,都会通过各种工具,贯穿在阿里数据的整个研发流程过程中。这也使得数据在计算和存储的时候能更好地共享,为应用个性发展提供快速服务。

“就像是美军的特种部队,背后依靠的是非常强大的美军军事指挥基地。指挥基地提供的是强大的支持,让特种部队能够随时根据情况进行灵活的战术调整。OneData所扮演的角色作用,就是类似美军指挥基地,能够快速灵活服务于不同的业务。”据王赛介绍,在OneData体系实施之前,数据团队仅支持淘宝、天猫和1688等少数业务,而现在,已经服务于集团内45个BU,所支持的业务类型还在不断增加中。数据工程师也不需要再像以前一样,从头到尾了解每个研发流程的细节,而是更像特种兵,只需要与数据中台紧密协作就能快速实现目标。

OneData体系在阿里内部实施之后,除了快速支撑起多个业务的服务之外,带来的更直接效果是,对计算和存储资源的节约。据介绍,过去一年就为阿里节约了一半资源,节省了上亿元的成本。

IDC报告显示,预计到2020年,全球数据总量将超过40ZB(相当于4万亿GB),这一数据量是2013年的10倍。在阿里内部,对未来5年内的服务器需求量也有一个测算——将达到现在的100倍之多。借助公共层体系和OneData,5年后的服务器需求量将会相对节约90%。

其他活动
活动峰会
趋势报告
趣味数据
技术探索