hadoop学习-海量日志分析(二) HBase

本文在前文MapReduce分析Web日志基础上,探讨如何使用HBase处理Web日志。通过读取日志文件并存入HBase,再用MapReduce统计每个IP访问子目录次数,结果存储于HBase的"total-access"表中。注意HBase仅支持字符串,存储数据需转换为String格式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

之前一篇文章介绍了使用MapReduce分析Web日志的过程。本文继续在原来的基础上,利用HBase来处理Web日志。

1、Web日志分析

Web日志中,每条日志都代表用户的一次访问行为,以下面的一条日志为例子:

60.208.6.156 - - [18/Sep/2013:06:49:48 +0000] "GET /wp-content/uploads/2013/07/rcassandra.png HTTP/1.0" 200 185524 "http://cos.name/category/software/packages/" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36"
每条日志都有用户IP,访问时间,访问页面信息等等。

2、读取日志文件,将其存入HBase

代码实现:

	public static void main(String args[]) throws IOException, ClassNotFoundException, InterruptedException
	{
		
		/*	read data from file ,write in HBase */
	    String strRowKey = "";
	    String strIP = "";
	    String strURL = "";
	    String fileName = args[0];
	    Configuration conf = HBaseConfiguration.create();
	    HTable
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值