差异一、敏感数据发现与“精确”敏感数据发现
1. 多种内容混合的字段脱敏
2. 无法判别敏感属性的字段脱敏
其一,对属于某种集合范围内、能够被枚举概括的数据,可将这些集合全部列出作为数据字典保存;当遇到这类“落到字典中”的数据时,即可以此辨别其是否为敏感数据。例如:中国的省市区划、企业和机构的行政部门、股票证券行业的上市公司代码等,均可通过此类逻辑进行敏感数据发现。
差异二、数据脱敏与“高度仿真”数据脱敏
1. 内容仿真
例如:在某制造行业中,对于制成品的批次号需要进行脱敏,但批次号是由生产日期、车间号、流水线号和操作者相关信息共同组成的,这种行业级的数据显然已超出一般数据脱敏产品内置规则的默认范围,这时就需要安全厂商的数据脱敏产品能够对数据按位数进行切分,并基于切分的结果对各段配置脱敏规则。比如:对于日期段,可采用标准的日期脱敏规则;对于车间号、流水线号这种有范围的数据,要能基于数据字典进行脱敏;最终还要将各段组合成完整的脱敏后数据。
2. 区间、比例仿真
例如:金融行业客户需要对储户的储蓄金额进行分析,但若拿到的脱敏后数据与原始数据相差过大,将会导致统计分析结果大大失真,因而需要脱敏产品的算法能够将金额数据划分区间长,并能以“就近随机”的方式完成脱敏;而高校客户在统计生源分布比例时,即便拿到的已是将“北京市脱敏成上海市,天津市脱敏成江西省”这样的非真实数据,也还是希望“同一省市生源数据的比例”是不变的等等。
3. 关联仿真
当身份证号、出生日期、年龄三个字段出现在同一个表中,则天然存在“身份证中间8位数据与出生日期一致,且当前年份减去出生日期即为年龄”这一逻辑关系。在这种情况下,就要求脱敏后数据也要保持这种关联关系,否则在分发到开发测试场景后极易造成业务系统出现逻辑异常;
而在制造行业,一张表中常存在“产品单价、折扣率、实际价格”三个字段,且存在“产品单价x折扣率 = 实际价格”这一逻辑关系。在这种情况下,如果对价格数据进行脱敏,那么要求脱敏后数据仍能保留上述运算关系,这就需要脱敏产品能够通过表达式精确处理此类行业内特定的数据逻辑关系;
再以证券行业为例,同一张表内常存在“证券号码、上市地区、企业名称”等存在对应关系的数据,并且要求在对证券号码或企业名称进行脱敏后,三者的逻辑关系依然能够对应。为此,脱敏产品需要能够针对多列数据字典,实现精确且保障效率的关联仿真脱敏运算。
差异三、脱敏运算与“高性能”脱敏运算
其一,是利用数据库特性完成数据抽取与入库逻辑。例如:以“数据库并行加载机制或load机制”替换“通过JDBC读写数据”,这种方式会令数据脱敏产品的开发复杂程度大幅提升,但与此同时也会带来大规模数据脱敏性能的提升。
其二,是数据脱敏产品能够提供平行扩展的集群化部署运算能力,从而通过扩展运算节点的数量,成倍扩展数据脱敏产品的运算能力。