大数据审计方向的展望
作者:安华金和 发布时间:2019-03-19

在云计算、大数据、物联网引领下,大数据审计势必会应运而生,那么什么是“大数据审计”?“大数据审计”有两层含义:

①对使用大数据作为业务数据库存储的这类“数据库”审计;

②对大量业务产生的审计数据以大数据方式存储。

前者的本质在于数据库的审计,后者的核心在于审计数据结果的处理。

在大数据使用愈发普及的市场背景下,以上两个方面常常同时出现:为了更好的服务于业务,大数据形态不断扩展和业务逐渐成熟,大数据审计成为刚需;大量的审计数据结果需要更大的存储空间和更庞大的后续统计分析,而这正是大数据擅长的地方,所以演变成了“用一个大数据应用(DBAudit)来审计业务系统的大数据”。

可见之前传统的关系型数据库审计,针对大数据审计会出现“水土不服”,我们通过一个个针对大数据审计的项目落地过程中总结发现:

1.以操作类 型为视角的统计很多场景不再实用,如HDFS下的数据库语句实际上是对文件系统的操作命令ls、cp等;

2.由于大数据存储节点众多,故数据访问端口范围的不确定性也随之而来,传统数据库审计对IP+端口的数据模型已不再适用,大数据审计一般都采用动态的端口范围,而且范围较大,如某项目现场的Hive端口数量30+;

3.语句模板难以用SQL方式翻译,在关系型数据库审计中安华金和的语句模板机制极大的减少了语句记录量,业务审计中以模板方式也极大的提高了统计和分析的价值,但大数据应用下这种方式将难以继续这种业务呈现;

4.业务化语言无法匹配,关系型数据库的业务化语言翻译不再适用于大数据时代。

在完成对大数据审计的协议解析后,如何呈现更合理的审计结果和统计分析?安华金和的思路是:基于现有DBAudit的语句、会话、风险三大视角基础框架,基于大数据形态做针对性的审计数据结果呈现和风险策略告警能力,DBAudit新的版本将会带来耳目一新的价值体现。

上面提到,被审计数据库节点的极大增长,以及审计结果数据量的猛增,审计系统本身也将步入大数据化。目前安华金和的审计结果大数据形态大致如下:

image.png
大数据架构图

这将会在后续的产品演进中逐步落地。

对大数据的审计支持能力,DBAudit在国内厂商中一马当先,目前支持的大数据形态有:Hive、HBase、Sentry、HDFS、Impala、ElasticSearch,以及MangoDB、Redis等非关系型数据库。

以某省级电信运营商项目为例,安华金和对需求响应和功能快速交付得到客户的极大认可。运营商要求友商提供自己所提供系统的ElasticSearch大数据库的审计,友商反馈不具备审计能力,且表示国内尚没有产品可以做到。运营商辗转找到安华金和,我们的工程师三周完成了对友商这套应用系统的大数据审计适配,而且克服了友商“网络环境故障”、“切换加密方式”等额外增加的困难,这体现了安华一切以业务场景需要和客户满意为宗旨,深厚技术能力得到证明。

结束语:作为数据安全领域的领跑者,我们将继续深耕,不断挖掘产品新的价值点,正是凭着这种敢于向技术壁垒发起攻坚、敢于突破自我的精神,才能打磨出具有领先性和前瞻性的成熟产品。