用数据解决数据的问题

2016年8月6日

1、背景篇

在阿里内部,数据研发工作比大家想象中的还要繁杂得多。这主要是由阿里数据自身定位决定的。阿里数据定位于阿里集团的数据中台。

就数据资产而言,阿里数据实际上拥有了海量的各类业务数据,比如电商交易数据、支付数据、风险数据、视频数据、音乐数据、地理位置数据、物流数据……

体量庞大的数据,加上数据本身与业务的强相关势必会给数据研发工作带了极大的挑战:交付时间受限、发布上线频率高、运维任务众多、系统环境复杂。

面临这些挑战,除了加强工具建设并与研发流程打通等常规方法外,阿里数据还在数据处理上,探索出了一些能让研发更为高效的创新方法。

2、Data Profile为数据画像

由于阿里数据拥有的数据体量实在难以估量,我们很难精确地说清楚到底拥有哪些数据、这些数据存储在哪里,如何使用它们等等。过去,数据研发人员在寻找数据、确认口径算法等工序上,花费了大量的人力和时间。


而Data Profile的出现,恰好解决了研发初期数据处理的繁杂困境,既节约了时间成本,同时也缩减了相当一部分人力资源。它的核心思路即是为纷繁复杂的数据建立一个脉络清晰的血缘图谱。通过图计算、标签传播算法等技术,系统化、自动化地对计算与存储平台上的数据进行打标、整理、归档。

形象地来看, Data Profile实际承担的是为元数据“画像”的任务。

3、Data Profile四类标签

就像我们可以为用户的网购行为打上不同的行为标签一样。如果我们也用同样的思维来看待数据本身,那么原本冷冰冰的僵硬数据,实际上也变得有血有肉、个性鲜明。

数据之间的个性化,除了应用场景的不同之外,实际上在数据的研发流程、保障登记、数据质量要求、安全等级、运维策略、告警设置上都会有差异。根据这种差异化, Data Profile开发出了四类标签。

基础标签:针对数据的存储情况、访问情况、安全等级等进行打标。
数仓标签:针对数据是否是增量or全量、是否可再生、数据的生命周期来进行标签化处理。
业务标签:根据数据归属的主题域、归属产品线、业务类型为数据盖上不同的标签。
潜在标签:这类标签主要是为了说明数据潜在的应用场景,比如社交、媒体、广告、电商、金融等。

利用Data Profile,我们不仅可以节约研发人员的时间成本,同时对阿里内部的非研发人员来说,也可以更直观地理解数据,利用数据,从而提升数据的研发效率。

4、OneClick一键处理

在OneData体系里,让数据研发更高效的工具还有OneClick。OneClick顾名思义,就是通过一键点击的方式,来提高数据研发的效率。目前OneClick主要覆盖的场景有两个:一是数据同步,另一个是存量数据日常维护。


OneClick的思路实际上就是将数据研发一些日常的操作,通过一个可复用的流程,一键点击、一键完成。在上述两块数据处理的场景中,所有的功能都是基于某一事先配置好任务流去实现,每个任务流都是不同的API接口按照一定顺序的排列组合。

5、未来:数据研发可以更高效

Data Profile和OneClick的出现,大大降低了研发和运维的成本。试想一下,随着业务的发展,数据一般都会有它自己的生命周期,我们需要定期去探查一些数据是否可以做下线处理。
过去,我们需要花费很高成本去调查确认,现在利用Data ProfileOneClick,这个事情可以变得非常简单。

首先我们可以通过DataProfile拿到这个数据的下游任务依赖情况、最近被读写的次数、数据是否可再生、每天消耗的存储计算等,这些信息足以让我们判断数据是否可以下线,如果根据一些规则判断可以下线,我们会通过OneClick触发一个数据下线的工作任务流,数据owner可能只需要在手机上点一下提交按钮,那么删除数据、删除meta、下线调度任务、下线DQC监控等一系列操作就会自动后台执行完成。

对于OneData体系的未来,阿里数据仍在持续探索。未来阿里数据希望可以通过这一体系,将整个研发过程自动化,进一步解放生产力。阿里数据也希望这一行之有效的方法论可以为业界带来复用的价值,引领行业的变革。

 

其他活动
趋势报告
趣味数据
技术探索