EB级别数据资产如何高效管理

2017年10月23日


阿里巴巴数据资产管理
——2107云栖大会·阿里大数据分论坛 精彩分享3


演讲人:王伟(阿里巴巴高级技术专家)
本内容编辑自阿里巴巴数据技术及产品部高级技术专家 王伟在“2017云栖大会·阿里大数据分论坛”上发表演讲,转载请备注来源。


大家好,我是王伟,来自于阿里巴巴数据技术级产品部。

前面宗超跟大家介绍阿里巴巴数据中台全景图:核心分为三部分:第一部分,统一计算后台;第二部分统一数据中台,第三部分赋能业务前台。在统一计算后台这部分:面对双11这样的流量洪峰,流计算技术已可以从容自如应对;对于赋能业务前台,前面也介绍了如何通过算法和产品技术来赋能业务(查看内容请点击);在统一数据中台部分,宗超(查看内容请点击)为大家介绍了全域数据如何建设。那么接下来,我将为大家介绍统一数据中台的另外一部分:阿里巴巴如何去做EB级的数据资产管理。


首先来看,阿里巴巴最初在做数据资产管理时,面临的三个核心难解的问题:

上述是面临三个典型的核心的问题,也是必须要解决的问题。 

接下来我为大家分享内容会从这三个方面介绍阿里巴巴在做数据资产管理的时候是如何做的:首先,要盘清数据资产的一本账、也就是要做数据资产的盘点;其二,盘清后需要进行成本评估。对于前者,也就是数据资产盘点,先要理解全部的数据资产、业务属性到底是什么;同时还需要构建标准规范的阿里巴巴数据资产类目;对于评估环节,最基础也是最核心环节就是如何去构建追踪数据应用的全链路,最终将数据成本、业务收益做到清晰透明可评估。接下来详细讲解这两个方向:




一、资产盘点


要解决的问题:

第一个,盘点。也就意味着要知道数据是做什么用的,数据的业务属性是什么,所以需要对数据打标签。首先化整为零:分析每一个数据的业务属性后结合资产分类来重新组织和定义标签;接下来通过领域专家基于业务了解,一起来构建阿里巴巴规范的数据资产类目。

有了标签,有了数据的业务属性,如何把标签和业务的分类、数据的分类关联起来?这里就存在数据挂载的问题,目前我们有人工挂载以及自动化挂载:人工挂载只是辅助方式,我们希望大家在做这样的事情的时候,能尽量减少人工干预,所以目前大多已由算法来自动优化挂载。

类目和标签挂载完成后,生成阿里巴巴全局的数据资产版图。这里我们就已经做到数据资产可视化——所见即所有:清楚了解有哪些资产、还缺哪些资产、要建设和接入哪些数据资产,同时对于数据资产的使用者来说:通过资产地图来帮助大家快速清晰查找你所用的数据资产、哪些是核心、它被使用到哪里以及最终的业务价值。

数据资产的评估:

我们构建了资产评估模型,此模型有三个核心要素:

第一个,连接度。来衡量数据的连接使用情况,实际使用频度。

第二个,贡献度。评估数据资产赋能阿里巴巴业务生态,价值如何去衡量、贡献度大小是多少?我们有贡献度指标来评估。

第三个ROI。数据使用后对内外客户,消耗的成本是多少,最终带来的价值是多少?也需要通过ROI来进行评估。


对于资产活性来讲,资产评估活性来讲,通过连接度和贡献度来构建这样的一个模型:对于连接度低且贡献度低的数据,我们把它称为孤岛型数据,对于孤岛型数据要做是跟踪数据的生命周期,实施数据消亡或者减少数据生命周期,同时对这样的数据还需要进行冷备;对于连接度高且贡献度高的这部分数据资产,是价值非常大的,沉淀为阿里巴巴核心数据资产。



 二、资产治理

如何实现降本和提效:

数据资产,除了做好分析和评估还需要知道数据资产带来的价值:阿里巴巴仅ODPS上数据资产己超EB级,这些数据资产同时也构成了巨大的成本中心,对它们进行治理和管控,达到——低成本、高效率。

对于降本来说,大量数据资产消耗的核心部分是计算和存储的成本,就需要在这一块下功夫;对于提效来说,打通闭环:实现从数据分析到现状分析、问题诊断、优化、处理管理优化,一直到效果反馈,构建这样的闭环则是核心。

怎么去做治理?采用的方法和策略是什么?首先通过个人,下影响到BU,上带动集团,以个人优化来带动全局优化,这是基本策略。对于个人资产来讲,核心就是基于个人的任务和表,对于治理的策略,构建了这样一个数据资产管理的闭环。

同时做数据资产治理,不是人工去治理,而是通过自动化、智能化资产工具来治理,形成治理闭环,构建个人资产治理中心,提供治理工作台以及相关力量和资源监控,最终实现对用户做数据资产管理的赋能。

资产治理体系的价值:

规则统一,统一对所有的资产用户来说,要统一这样的衡量标准,于是构建了资产健康分,由分数来衡量数据资产治理程度如何、效果如何;

另外统一了成本评估,因为每个人的名下数据资产可能成千上万张表和任务接点,你带来的成本消耗有多大,带来价值收益有多少?要统一成本计量模型;

对于优化的效果来说,优化的效率来说,争取做到智能优化。

最终想把资产治理实现工具化、产品化。不要通过人工的方式来做这样的事情,另外说,最终规则统一也好,智能优化也好,要实现的降本提效:带来的效果,每年,为集团节省数亿元的这种数据成本消耗;把每个人对数据资产治理的效率有人工变成自动化、智能化工具的方式,效率提升了50%。


 

三、资产应用:如何追踪溯源?

前面讲到数据如何做分析、如何做治理是基础环节,数据资产的核心价值还是在于使用:只有用到产品服务、触达用户才能最大化发挥价值。

但我们会经常面对下述问题:对于数据产品PD来讲,产品的数据出现问题,很难定位这么长链路中到底是哪个环节出现了问题;对于数据管理者来说,海量数据每天消耗大量成本,价值体现在哪里?对研发者来说,在成千上百链路下怎么能精准的定位到问题症结——其实这些问题最终指向了同一问题:数据资产的应用,正向难追踪、反向难溯源,那么如何做到追踪溯源,这就是资产应用管理要解决的核心问题。 


资产应用最后一公里:

解决资产应用的最后一公里的问题,形成了全链路端端互通的技术体系:从数据的采集、生产加工、到数据的服务端,再到产品端全链路打通。

对产品端来说,它服务于整个阿里体系内外客户;对于服务端来讲,我们大量的数据采取不同的异构数据存储,服务不同的产品;对于数据端来说,除了有ODPS还有其他的数据加工引擎、计算引擎。只有真正把链路打通才能实现从数据采集端到生产端到服务端全链路打通。

那么,基于全链路打通后,对我们来讲有哪些方面提升呢?

第一个,可以做全链路保障。原来往往是做数据资产治理,经过单节点和单任务单表来做数据资产治理;现在全链路打通,我们可以基于数据场景进行反向推动,做到全链路的分析保障。

第二个,数据资产应用的评估。如果链路出现断层,很难去追踪数据到底服务哪些产品,带来哪些价值;从数据源端开始,定位到数据的消费端,做到数据全链路互通,才能真正落地ROI评估。

第三个,安全管控。每天有大量数据被使用,这些数据安全等级不同,有些可公开,有些不可公开;如果全链路不打通,不知道数据到底用到了哪些产品、哪些模块、哪些页面,用了哪些数据也不知道,做安全质量的管控,是无从谈起的。

最后,数据追踪。基于关键路径能够做到数据时效性和稳定性的保障;以及基于链路衡量产出时间,可以制定优化方案;全链路上某环节出现问题,通过关键路径分析,精准定位和识别。

 

四、带来的价值及总结

  1. 产品保障:消除链路断层,实现端端互通,最终打通数据产品——从数据采集端到服务端到消费端,整个全链路的打通。基于全链路打通,实现数据生产、消费,以及管控的全链路闭环。
  2. 资产盘点:清晰盘点出属于资产的应用场景,用在了什么地方,被哪些产品消费,哪些用户来使用。
  3. 资产评估:基于全链路端端互通,才能构建出全链路成本计量模型,以及和业务评估模型、价值评估模型相匹配,最终来实现ROI评估。
  4. 资产治理:基于数据应用场景反向追溯数据资产治理,让数据资产变得更加有的放矢。

最终为产品PD、数据消费者、数据管理者提供全链路、全景洞察分析以及全链路管控与保障。

这里是阿里巴巴数据资产管理全景图。

由下而上依次为:打造和构建了全集团统一元数据服务体系OneMata;再上一层是在资产分析、资产治理、资产运营这几大方向上的方法论及实施技术点;再向上是基于此抽象出来的产品及功能; 再上层属于资产管理平台,为用户提供的功能如下:全盘把握以科学分析数据资产,到底数据资产有哪些,怎么样来做数据资产的决策;对数据使用者来说,能够清晰查看以及快速使用数据资产;对于数据的开发者来说,能够做到智能诊断以及高效管理数据资产;对财务或者高层决策者来说,能够准确评估、合理应用数据资产。这就是阿里巴巴做数据中台、做数据资产管理的框架和体系。

最终为用户提供数据资产管理平台:多维度的数据资产与评估,全链路的自动化、智能化的数据资产治理,全链路的数据资产监管和价值追踪,以及全方位的资产运营工具,触达消费者。最终实现对于数据管理用户的赋能。

 

马老师也讲到说,阿里巴巴是一家具有家国情怀的公司;我们也希望用阿里巴巴大数据在这十几年来,积累沉淀出来的产品,技术,工具,经验及方法论,来赋能外部的中小企业及客户,最终实现:数据资产化、管理自动化、商业智能化。

这就是我今天的分享,谢谢大家!

 

PPT较大,可能无法正常展示;请稍等片刻后重新刷新页面即可正常展示

 

 

欢迎关注【阿里数据:AliData】公众号

其他活动
趋势报告
趣味数据
技术探索