联通大数据 CTO宋雨伦:联通大规模数据治理实践--2018可信云大会
>>返回主页
联通大数据 CTO宋雨伦:联通大规模数据治理实践

2019-06-04 15:05

1559637712918.jpg

  非常高兴能站在演讲台上跟大家分享联通在大数据治理方面取得的一些成绩,也非常荣幸今天能再次见到Kyle老师,我是他的第一批学员。目前取得的一些成绩,还是几大块。如果非得从历程上看的话,联通从大数据公司的成立到集团最早做的全国大集中的工作来看,其实还是经历了非常传统的过程,就是数据的集中,再到应用牵引,倒逼我们做数据治理,是这样一个过程。

  在这个过程中,由于我们对数据的采集或者加工倒逼我们不得不把数据处理好,因为这些数据对外服务的时候是有成本的,而且成本非常高。在这一块,不管是资源的使用情况还是成本的使用情况来看,我们都需要对数据进行治理。因为涉及到比较敏感的内容,我就不在这里说了。我想跟大家说的是,明天我们会有专场,有专业人员给大家讲集群治理方面是怎么做的,因为这可以保证加工算力。

  今天我们大体分为七块,就是基础资源分配和管理,统一数据采集交换,核心生产平台、能力开放平台、数据治理体系和安全管控体系,这七项工作是我们目前所形成的数据资产。

  这七个方面我们是怎么做的?目前我们还是通过自己公司内部的几个项,从公司管理层的支撑,立了几个内部项目,主要目的是梳理、整理和促进应用,这是我们的核心目标。数据的加工过程,大家知道Hadoop的天生劣势,就是对小文件的处理效率极低,那我们怎么办?就要将小文件变成大文件。我们想用各种各样的技术方式,去解决小文件的加工,不管是用什么样的方式,所有的方式只为一个目标实现,就是以小化整,这样才能提高整体算力和数据整体对外服务的按时、保质保量的需求。

  我们最终是要做什么?因为大数据公司定位非常清晰,就是数据的对外服务。数据对外服务就要体现数据的价值,我们所有的一切目标也都是围绕数据价值的体现来实现的。为什么?为客户和用户做好服务,而服务的过程就是体现数据价值的过程。

  我们有了自己的清晰目标,有了自己相对应的工程和方法论,我们就在这套指导思想下,不管是人力资源,还是硬件资源配套,就继续做这样的工作就行了。

  面临的挑战以及数据核心能力建设,目前看大数据在中国已经蓬勃发展好多年了,我们目前更多认为是在这六大能力里。对我们来说已经不存在数据汇集、采集的问题了,更多的是我们如何管理这些数据的能力,如何做好连接的管理,如何做好数据治理的能力,如何做好数据管理、数据安全管理、授权管理等等这一系列的管理能力。

  尤其在5G的基础背景下,海量数据激增,除了对人连接的管理和物连接的管理,数据再集中就有困难了,我们就要做好对数据路径的管理和授权的管理,在这一点上说,我们未来对数据连接的管理将是我们的重中之重。

  传统的数据对外服务能力,包括数据科学的应用实践能力,数据分析挖掘建模的能力,对外服务和应用开发能力,都是我们必须要做的。刚才六大能力建设是对我们的挑战,我总结了八个字,这是我觉得目前对这六项能力衡量的标准,就是如何量化这些能力,如何对这些能力进行相应的标准衡量,以及如何应用和如何体现价值。

  我们在整个数据治理的过程中的深刻体会,第一是必须要有相应的组织结构保障,不管是公司层面还是内部分工层面,我也是从DMM模型中受益的。我们在数据的使用者和生产者上,要有清晰的定义和界限。包括反馈机制的建立,因为数据不用,你永远不知道它的价值在哪里,永远不知道衡量质量的标准在哪里。包括理念的构建,全员都要不断的给反馈,只有快速的反馈机制才能促进我们不断的提升数据质量和数据标准、治理能力。

  当然了,我们在这里还是一样,因为今天看到联通数据中心也在,也是给了我们大力的支持。因为我们整个数据链路采集的过程,在联通集团内部还是比较长的,整个联通集团都在为大数据公司对外提供数据服务能力,做了全程的保障。

  另外就是做好打持久战的准备,数据质量波动和变化,这个标准也是有变化的,而且有反复,所以要有耐心。最后还是一样,不管怎么样,我们现在的技术基本都是开源技术,我们要能改得动底层代码,要消化吸收开源的技术,为我所用,自主所用,在这一点上来说我们必须要加强这一块自有的能力建设。我们没有原创的,但是至少能改动底层,这是我们目前在技术上底层能力的建设成果,还有在数据治理层面的成果。

  简单跟大家汇报这些,谢谢大家。

0