数博会现场直击——阿里巴巴大数据标准化之路

2016年5月16日


“在阿里巴巴大数据标准化的过程中,阿里数据团队基于标准化落地的工具就有4个!”今天下午,阿里巴巴集团数据技术及产品部高级技术专家张磊在2016数博会“大数据标准化论坛”上,以“OneData•阿里巴巴大数据标准化之路”为主题,深度解读了阿里巴巴大数据标准化落地之路的经验分享及技术创新。 

背景篇

随着业务的高速发展,由此产生了飞速增长的数据存储与计算成本,在数据应用层面的清洗、管理和消费成本也随之增长;同时,基于业务的多元化发展,由此产生的全域数据归一更是加大了数据标准化的难度。

OneData体系作为大数据标准化规范,从方法论到落地实践;从对指标定义、数据研发、数据服务的口径管理到数据规范定义、模型规范定义、研发流程的规范化;每个环节均有对应工具进行严格保障,并做到方便管理、问题追溯。

此前, 我们曾经对OneData体系建立的方法和思路进行了介绍。


 


工具详解篇

阿里数据团队针对数据研发的各个环节,采取各个击破策略。在落地OneData过程中,基于标准化落地的工具可以分为4个:

1、研发层面——SQLSCAN

由于用户水平参差不齐,编写SQL往往存在性能、不规范、潜在的数据风险问题。SQLSCAN能做到在代码提交时检测这些问题,阻断代码提交,直到问题解决,做到事前规避。

 2、指标统一——SQL归一化

虽然OneData规范定义能做到在定义层面的去重,但是实际指标对应的后台算法与SQL语句无法在定义层面得到解决。我们的SQL归一化工具能解析具体指标的完整SQL 算法,并按照

一定的规则进行归并,达到事后检测指标是否有重复,真真做到从规范定义到SQL 算法落地的归一和统一。

3、数据验证——在彼岸

随着业务的变化,研发人员往往需要对现有的代码逻辑进行修改,为保证数据质量需要对修改前后的数据进行回归对比,包括数据量差异、字段差异对比等,来保证未修改逻辑部分没有问题,而这些操作如果手动来做费时费力。在彼岸主要就是为解决以上重复操作所沉淀出来的工具平台,不仅可以让用户勾勾选选对比规则就能完成数据的对比,查看对比差异,还能进行数据特征提取和配置测试用例,大大降低了人工成本。

4、消费保障——DQC(Data Quality Center)

在数据生产被消费前,进行数据业务逻辑的校验,比如线上数据波动异常则会第一时间预警到开发,阻断下游消费,有力保障了数据的消费质量。

服务引擎篇 

规范定义、模型设计、数据研发在基于上述工具的强有力保障下,真正做到了标准化落地。针对整套服务体系我们开始思考如何更好的提供服务,体系是否可以更简单灵活的复用到其它业务环境中,于是“服务引擎”呼之欲出。

1、元数据服务

元数据是数据的数据。在OneData体系中沉淀了维度、指标、模型,这就是天然的标准规范化元数据,无需任何加工。OLAP 分析系统可以基于这套元数据组装各个维度的度量指标,为分析师、运营人员直接提供数据,而不用再去关心哪些是维度,哪些是度量。

2、Finding Data业务数据服务

一站式提供数据检索服务 + 数据推荐服务,数据对象包括ODPS表,快门报表,数据产品,业务指标等阿里集团内部的一切数据载体。极大降低数据使用门槛,节约存储和计算资源;用数据连接数据,用数据连接人,让天下没有难找的数据。现已为阿里数据门户网站【阿里数据平台】提供搜索服务,日均调用次数过万。  

3、统一规则引擎

这是对指标定义和模型开发的升级,我们要提供的是指标只需要定义(语义上或者SQL层面),而不需要关心载体(表),以及层次。统一规则引擎调度这些已经定义的指标,从维度粒度上,在计算运行层面对指标进行组装和分拆。达到相同维度和粒度的数据一次性运行计算和集中存放,降低计算和扫描次数,释放资源,做到服务层面的指标口径统一。

挑战篇

对于未来的挑战,也在数博会上分享了阿里数据正在考虑如下几个问题:

①在做数据标准化推进落地过程中,一方面需要关注业务发展的需要,随着业务的更迭我们需及时调整输出,另一方面还要继续关注规范化的建设。

②模型架构升级,如何做到规范定义自动完善进一步解放生产力,达到快速实施将是OneData 又一次革命性蜕变。

③平台工具的易用性。针对前面提到的全域趋势的发展,在数据采集、收集、流程归一化上,引发的痛点其实也是一个契机,让我们开始关注考虑这套工具的扩展性。

 



其他活动
趋势报告
趣味数据
技术探索