大数据分析与审计结果验证
一、大数据分析的挑战与工具
在大数据环境下进行审计,审计人员面临诸多挑战,其中之一便是 Hadoop 特定术语带来的困扰。例如,MapReduce 是一个分三个阶段的过程:
1. Map 阶段 :将数据分割成多个由特定键标识的碎片。
2. Shuffle sort 阶段 :在集群内的同一节点上聚合包含相同键的数据碎片。
3. Reduce 阶段 :从各个节点获取经过混洗的数据,在本地机器上进行处理,并生成最终结果。
对于初次接触这种环境的审计人员来说,这些术语可能会造成混淆。
Hive 是一种类似 SQL 的语言和元数据存储库。它能够支持对多种源格式(包括原始文本文件)进行查询。其基本数据单元是表,类似于关系数据库,由包含记录的行组成的二维“电子表格”结构。Hive 提供了类似 SQL 的语言(HiveQL),可以实现如 GROUP BY、JOINs 和 HAVING 等功能,与标准 SQL 类似。但由于普通关系数据库设计与 MapReduce 框架的差异,与标准 SQL 相比,其查询类型存在一些限制。本质上,Hive 是一个将类似 SQL 的查询转换为 Hadoop MapReduce 作业的系统。此外,还有多种高速查询引擎的开源衍生版本可与 Hadoop 一起运行。
由于大数据涉及的数据量巨大、速度快以及部分数据的非结构化性质,审计人员使用统计抽样的能力可能会面临困难。大数据统计抽样在体积、强度和复杂性方面超出了标准审计软件工具的管理和分析能力,审计人员面临两个主要问题:
1.
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



