大数据 Hadoop 报告生成与潜在问题解决
1. 单列报告生成
单列分析报告的创建步骤如下:
1. 在存储库面板的数据探查下,右键单击分析文件夹。
2. 在弹出窗口中选择报告文件夹和列分析类型,如图 11 - 25 所示。
3. 点击“下一步”,输入报告名称和报告描述,如图 11 - 26 所示。
4. 再次点击“下一步”,选择报告的数据库表列。展开 Hive 数据库连接,直到可以选择合适的数据库表列,然后选择“完成”,如图 11 - 27 所示。
生成的单列报告的分析结果标签页会展示表格和柱状图,包含该列的总数和空值计数,以及该列的重复值、不同值和唯一值计数,如图 11 - 28 展示了从 rawtrans “amount” 列生成的单列报告结果。
2. 多列报告生成
多列报告的生成方式与单列报告类似。在选择报告所基于的列时,按住 Control 键并选择“多列”。例如,图 11 - 29 中的报告是从 trade.rawtrans 表的四列生成的:“amount”、“department”(dept)、“supplier” 和 “export area”(exparea)。对于 “amount” 列,由于其包含数值,将数据挖掘类型参数设置为 Interval;对于其他字符串列,设置为 Unstructured Text。简单统计信息包括列行数以及不同值、重复值和唯一值的计数。点击运行图标即可运行报告并生成右侧的柱状图。
3. 基于 SQL 规则的报告
当创建报告时选择“表分析”,然后选择“业务规则分析”,即可创建基于数据质量的报告。具体步骤如下:
1. 点击
超级会员免费看
订阅专栏 解锁全文
1241

被折叠的 条评论
为什么被折叠?



