简单的日志分析流程
- 使用Flume采集数据到HDFS上
- 对数据进行清洗(可以使用MapReduce程序来清洗)
- 在Hive上创建相应的表加载清洗后的数据,然后使用Hive对清洗后的数据进行多维分析
- 把Hive分析得出的结果通过Sqoop导出到Mysql中
- 提供视图工具供用户使用(可以自己写Web程序来访问Mysql)
备注:这边的日志分析最好通过写shell程序结合定时器crontab来完成。不可能每天通过手工来完成日志分析,这样效率太低了。在shell程序中写完整的日志分析流程,然后通过定时器crontab来定时调用该shell程序。
本文介绍了一种自动化日志分析流程,包括使用Flume采集数据、MapReduce清洗、Hive多维分析及通过Sqoop导出结果到Mysql等步骤,并推荐通过shell脚本结合crontab定时任务实现整个过程的自动化。
338

被折叠的 条评论
为什么被折叠?



