中国信通院云计算与大数据研究所 王卓:数据脱敏为什么如此重要--2018可信云大会
>>返回主页
中国信通院云计算与大数据研究所 王卓:数据脱敏为什么如此重要

2019-06-05 11:40

王卓.JPG

  大家好,我是来自信通院云大所的王卓,之前跟会务报题目的时候报错了,应该是数据脱敏为什么如此重要,今天大数据安全论坛前面来自政产学各个不同方面的专家们分别从金融角度,或者法律法规,或者技术检测等等技术家度都讲到了信息安全相关的东西。我这里代表云大所主要讲一些关注脱敏技术,还有这方面的相关的标准化工作方面的内容。

  首先是背景,数据安全的现状大家都提了很多遍,Facebook的数据泄露、还有数据堂的例子,我不详细讲了,相关的法律法规、还有标准文件的出台,比如最近推出的《数据安全管理办法(征求意见稿)》,看到这些安全现状,我们在对数据进行构想流通的时候其实是不畅的,我们想对数据进行挖掘和分析的时候是受到这些东西的制约。但是实际上我们想对数据价值释放的期待是非常巨大的,我们依旧需要一些技术手段解决这些问题。

  在《数据安全管理办法(征求意见稿)》中找到这样的一系信息,对于个人信息的保存和提供要经过匿名化处理,我们在正常生产和使用中需要在很多环节需要对敏感数据进行共享和使用的时候存在一些数据泄露的风险,的场景中,数据脱敏是必经环节。法律法规和行业要求,对数据脱敏的时候有脱敏程度的要求,比如匿名化、去标识化,匿名化是对个人信息处理之后,使得个人信息主体无法被识别。去标识化是处理后不借助额外信息的情况下无法识别个人信息主体的过程。

  这是具体的数据脱敏技术的介绍,在昨天的主论坛上,我发布了一下基于多安全计算,多安全计算是我不希望我的数据给出去,在这样的情况下我要完成计算,数据处理的脱敏在于我还要把数据给出去,但是给出去的不是很有安全风险的数据。数据脱敏技术的主要目标就是通过对敏感数据进行相应特定脱敏算法进行变形转换,以降低数据的敏感程度,扩大数据可共享和被使用的范围。一般脱敏算法有加解密、掩码、替换和模糊。上面是我的个人信息,我的姓名、手机号和身份证号,常见的信息一定是敏感数据,还有我的照片在上面,这样一个证件我要进行脱敏会得到右边图上的结果,首先最明显的看到我的照片已经被打码,我不怕了,姓名完全替换成另外一个名字,手机号使用的是常见的中间四位掩码,身份证号变成另外一个号码,这是体现了脱敏的方法,而且也有不同的差异,如果我们把姓名的脱敏是一个完全一对一的对照,我们对姓名进行脱敏的时候,所有的都能脱敏成张三、李四,有可能可以被复原回来,只是去标识化。另外对于身份证号这种有很明显的合理结构数据进行脱敏的时候,可以使数据维持相应的结构,这样一种脱敏的做法可以保持数据一定的可用性,如果在挖掘分析中需要用到的时候是很有用的。

  数据的可用范围,正常情况下数据是只能存在于生产环境中,经过脱敏之后就可以进行在测试环境中存储、开放领域存储以及对外部开放访问。敏感数据提到个人隐私数据、企业业务数据,还有数据分级分类很高的数据。还有数据源、数据类型,最早的数据源是指关系的数据结构,尤其是在数据类型部分,最早数据脱敏的主要是针对数值和文本这种很基本的模式,现在对于图片脱敏、对音频、视频都需要有脱敏。

  脱敏技术中两个比较重要的概念,一个是静态脱敏,还有一个是动态脱敏。静态脱敏简单说就是对数据进行批量化脱敏,一般用在测试开发或者是对外完整的数据集外发的场景中,主要特点是数据会发生批量的转移。静态脱敏这个技术可以视作是ETL脱敏,跟ETL很像。静态脱敏应用的场景,刚才说到有一些结构化的数据或者有一些数据的统计信息,我们希望它能够在脱敏之后继续维持,这个数据集的可用性是不能被破坏的,这个时候脱敏的很多算法是能够做到这一点的。

  动态脱敏定义是完全相悖的,一般是对数据进行实时脱敏,常用于对外提供访问的时候,外部可以访问我们的数据,实时获取敏感数据的场景。有的数据过来,一天有很大的流量,但是单个脱敏的时候,数据量都是比较小的,它的技术实现一般是通过脱敏网关等等中间件技术,使得脱敏方案在用户无感知的情况下给用户返回脱敏后的数据。另外改写数据请求这种方式。对于动态脱敏有一些场景没有纳入进来,这个是说比较传统的场景,还会有一些比较新的需求,比如源端流失的数据及过来的时候,希望采集过来就能实现脱敏,这实际上也是属于动态脱敏的例子。

  具体的脱敏应用场景,我提到了两个比较典型的,一个是数据开发的时候需要对数据进行挖掘分析,这个时候就用到了静态脱敏,因为我们需要对一个完整的数据集进行脱敏,脱敏过程中还保持数据的特性,保持数据特性之后才能从中挖掘出数据价值。另外是动态的场景,刚才说到的数据服务,我们要对外提供开放的接口让他访问数据,这个时候显然是动态脱敏的场景,保证正常服务的同时,杜绝数据泄露的风险。从前面对数据脱敏技术的介绍可以看到,它可以在有效降低数据风泄露风险、保护数据安全的同时,尽量少甚至不对数据可用性产生应用,从而不需要考虑安全还是价值的二择问题。

  刚才提到的脱敏技术是不是直接应用它就完事了,就没问题了?显然不是,在实际对敏感数据进行共享应用的时候需要考虑很多问题,比如哪些数据场景是需要数据脱敏的,这个时候可能就需要法律法规等等一些标准规范,对敏感数据进行定义。另外脱敏的过程是否保证了敏感数据没有外泄的风险,这个时候需要对数据脱敏的产品和技术相关标准与审核,就是产品的检测。下面还有敏感数据的脱敏程度是否达到要求,这也是一个比较重要的标准,可能需要一些技术要求和一些规范的要求。所以我们这边比较关注的是标准化的数据脱敏工具产品,我们认为一个足够规范而标准化的通用数据脱敏工具产品是符合法律法规要求,能够做到过程安全,对于这种工具的标准化以及评估评测工作是十分重要的,也是我们的工作重点。目前国际商有很着名的Informatica、IBM都有相应的产品,国内传统的服务商都有自己相应的产品。所以说将整个产业联合起来,共同产生这样的标准是有利于脱敏技术的合规落地,促进整个行业的蓬勃发展。

  接下来介绍一下数据脱敏工具标准的工作现状,TC601大数据安全工作组成立了大数据脱敏工具标准项目组,目前这个项目组重点关注对象是数据脱敏工具标准编制工作,着眼于具体的技术要求,经过两次讨论会已经初步完成了一份稿件,这份稿件里面提出了目前列出的十个左右的大项,我们还没有正式完成,所以还不是正式发布的状态。这里只是简要地给大家看一下正在进行的一项工作。目前这份标准编写单位是由信通院牵头,参与编写单位已经有很多,百度、亚信安全、兰格科技、九州祥云、派客动力、中兴通讯、电信云、联通大数据,如果想参与可以联系我们,我们后续会完成标准的编制,第九批大数据产品能力评测也要开始了,预计将开启第一批预测试。大数据安全后续还会有其他相关的工作,除了数据脱敏工具的标准工作之外,还会研究其他的标准,还有一点就是除了数据脱敏之外,大数据安全主题还有数据分类分级、行业数据安全体系、数据安全治理等等相关的主题,我们都想进行下一步的研究。右边是我刚才提到的,大数据产品的能力评测,第九批的时间是从今年开始,到7月15号截止报名,后面还有测试的时间和评审、证书颁发的时间,证书颁发在12月底的另外一个大会。

  最后我花几页时间简单介绍一下大数据产品能力评测的完整体系,这张图上列出了目前大数据产品能力评测里面所有的可评测的(如PPT),这个评测体系目前已经有很多家企业参与了,这个表格中,上面的横向列出所有参与过评测项目的列表,纵向列出了所有评测的项目,知识突袭、用户行为、商务智能、数据挖掘、数据集成等等,一共有112个产品完成了评测,一共通过的是171个测试。

  最后是大数据产品能力评测的数据上的统计,比如说我们测试过的最大的规模,数据量达到100TB,在基础能力方面最大的集群是一万个节点,还有最大的性能测试方面有300个节点,阿里也是300个节点,新华三通过了200个节点。右边是研发的热点,能够从评测中看到哪些技术是最火热的,比如像批处理平台基础是最热的,我们希望以后相关的产品也能够纳入这些类里面。

  谢谢大家,最后是我们TC601的公众号,大家可以关注我们后续发布的信息,都会在上面体现,谢谢大家。

  感谢王主任的演讲,非常系统地给我们讲解了数据脱敏研究的意义和主要的内容。今天我们这个分论坛已经进入尾声,但是大数据的产业是蒸蒸日上的,数据安全技术的发展也是方兴未艾,相信我们今后有更多的机会交流思想、碰撞智慧,接下来我宣布:大数据安全分论坛正式结束,再次感谢各位和与会嘉宾、业界同仁的参加,我们有缘再见,谢谢大家!

0