大数据:流动向左,安全向右
作者:安华金和 发布时间:2019-12-30

想要了解数据脱敏,首先应该用发展的眼光看明趋势。2014年以来,数据资源急速增长,产业市场蓬勃发展,大数据连续六年被写进政府工作报告,更是在“十三五”规划中被提升为国家战略。可以看到,来自政府的重视和支持,为我国数据产业的发展提供了良好的土壤和氛围,一系列法律法规的出台,更是为数据开放共享提供了政策指导,解除了大数据产业的束缚,明确了大数据的价值体现将主要以共享、流通、交易的方式呈现。而数据价值的提升和拓展,正源自于人们对数据的处理与共享。

大数据产业的迅速发展,为人们带来了极大的便利,同时也导致了大量数据泄露事件的出现。自2013年起,不断有规模庞大的数据由政府机构、医疗保险公司以及众多知名互联网公司泄露而出,对国家安全和个人生命财产造成了严重威胁。因此,政企一方面要促进数据的共享和价值挖掘,同时更要保护这些数据的安全,避免个人隐私信息等重要敏感数据被泄露和滥用。可究竟该如何对这些数据进行保护?除基于数据安全常规的访问控制、行为分析、加密等传统防护措施外,针对需要频繁流转的大数据,还需要对有权限访问数据的人及其所能访问到的敏感数据进行“特殊”处理——数据脱敏,或许就是答案。

根据公安三所针对“与数据相关从业人员”的一项调研的统计结果可知,在数据共享中有54%的人关心数据安全问题,而关心数据脱敏一项的人就高达20%。迄今为止,数据脱敏在金融、政府、教育、能源、电信、医疗、社保等绝大多数行业均有不同程度的应用,应用范围也在不断扩大。从数据脱敏产品自2016年至今的市场增长率推算,2020年其全球市场有望达到约7.67亿美元,这一数字对于数据脱敏单项产品的增长态势而言已是非常之高。在大数据技术应用催生下的数据脱敏市场,其快速繁荣不仅体现在市场份额的增长上;近年来,数据脱敏的对象、技术、场景和性能也都发生了很大的变化。

急速变化和发展的数据脱敏技术应用

2020年的数据脱敏将立足现有基础,在功能设计、流程规划等方面作出进一步完善和提升。通过下面的介绍,我们可以对其“继往开来,更进一步”的发展趋势有所了解:

数据脱敏的对象最早是数据库。而在互联网、大数据占据主流的新环境下,脱敏的对象已从原来单一的数据库向大数据平台扩展,像Hadoop等一些大数据平台包含文本数据,如txt文件、excel文件、e-mail、网页等都需要做数据脱敏,也就是说脱敏对象在结构化数据的基础上增加了大量的非结构化数据。

数据脱敏的技术最早只有替换,后来陆续增加了仿真、加密,泛化等脱敏功能,如今已能实现匿名化、去标识化等更多、更复杂的功能,用以满足个人信息保护的基本要求。

数据脱敏的场景原来主要是库到库的静态脱敏,之后又增加了动态脱敏。任何一个人在查看数据库时都是一个动态的过程,比如你在CRM或者OA系统中查询数据库的信息时,系统可通过你的访问权限直接对每一条信息、每一个字段进行数据脱敏,这就属于动态脱敏的范畴;此外,动态脱敏可以实现员工A和员工B查询同一条数据,但最后看到的信息却是有差别的,因为信息在返回前已根据A和B两人的权限分别进行了处理;还有一种情况,就是需要在网络端口中浏览外网的网页和内容,但其中一些关键字段又不允许内网的人看到,此时动态脱敏系统就会自动将关键性字段进行遮蔽,例如一些反动言论之类的内容。静态数据脱敏向动态数据脱敏的转变,是数据脱敏技术发展的一个重要趋势。

与此同时,我想说数据脱敏对性能的要求也越来越高。最初,数据脱敏只要能做到把一个字段或者几个字段进行遮蔽或仿真处理就可以了。但是现在,用户对数据脱敏在效率和效果两方面都有了更高的要求:

一方面,对脱敏后数据的质量要求,主要与它的可用性及误脱率相关。可用性,是指脱敏后数据的基本性质并未发生变化,像是银行、保险、证券等金融类企业机构常碰到“金额类脱敏”的要求,这类数据脱敏的可用性体现在区间的浮动比例不变,即原表中数据的跨度、总和、平均值、方差在脱敏后都要保持在同一水平。证券行业的数据脱敏如果遇到股票代码,就要做到脱敏后的数据板块不能变——例如浦发银行在A股的主板板块,脱敏后不能变成中小板,还要保证在主板里;又例如神州泰岳股票代码300002在完成脱敏后,还是要以3开头的股票代码。

另一方面,对数据脱敏的质量要求,除了体现在可用性、一致性上,还体现在面对大量数据脱敏的性能上。在TB量级的数据脱敏问题上,除了提高数据脱敏的算法和算力外,通过分布式部署、集中化管理突破硬件设备的瓶颈已成为应对Hadoop大数据环境下数据脱敏的主流解决方案——在集中管理平台下部署多台数据脱敏设备,由平台对任务进行分配,并对每台服务器的数据脱敏进程做统一管理。

数据脱敏的标准

数据安全没有法外之地!对新技术、新应用的探索创新,在发展至一定阶段后势必需要法律和标准的引领。2015年8月,国务院印发《促进大数据发展行动纲要》,提出推动实施国家大数据战略,加快完善数据基础设施,推进数据资源整合与开放共享,保障数据安全,加快建设数字中国的方针政策。习近平总书记也在“就实施国家大数据战略第二次集体学习”时提出,必须加快建设数字中国,并特别强调了数据安全。随后,在《贵阳市政府数据共享开放条例》以及国家税务总局关于印发《“互联网+税务”行动计划》的通知中,均提出要对非涉密脱敏信息进行开放。

脱敏标准最早出现于2016年,当时数据安全已成为国家关注的重点领域,数据脱敏产品在整个市场中已具有一定的规模;同年,数据脱敏产品被列为中国信息安全专用产品。为了完善销售许可证的标准体系,公安部第三研究所检测中心制定了《信息安全技术数据脱敏安全产品检测条件》。自2016年底开始,数据脱敏产品在市场销售过程中必须要经过公安部相关销售许可证的要求。数据脱敏技术和应用发展变化如此之大,以至于现有的数据脱敏标准已初步显现出滞后性,难以满足对数据脱敏产品以及厂商的指导作用。

作为对当前标准的补充,针对个人标识信息的匿名化处理,有《全国信息安全标准化技术委员会GB/T37694-2019信息安全技术 个人信息去标识化指南》;针对非数据库文件的编辑效果不可逆,有《ISO/IEC 27308 信息技术 安全技术 数字编辑指南》;针对政府数据的管理规范,有《D52/T1126-2016 政府数据 数据脱敏工作指南》。2019年4月,《信息安全技术 数据脱敏产品安全技术要求和测试评价方法》在全国信息安全标准化技术委员会立项。

急速变化和发展的数据脱敏技术应用

大数据产业经过十数年的发展,已经步入深水区,深入到了对场景布局和产业切入的层面,而在大数据技术应用发展的道路上,离不开数据安全的保驾护航。数据脱敏的目的,一是保护个人信息和重要数据;二是促进对大数据挖掘、统计分析和关联应用等技术的发展。因此,只有在保证安全的前提下对数据进行充分利用,大数据才能发挥出更强劲的价值和作用。