转载请注明出处:http://blog.youkuaiyun.com/xiaojimanman/article/details/40585565
更多相关hadoop内容访问:http://blog.youkuaiyun.com/xiaojimanman/article/category/2640707
对于博客 http://blog.youkuaiyun.com/xiaojimanman/article/details/40372189 中的计算结果 key-value (ip,出现次数),统计下各个地区运营商下的IP个数,通过这个计算结果,可以分析出用户的地理位置分布情况,为决策提供数据支持。
需求描述:
根据IP归属地,对IP进行分组求和,将结果输出到文件中。
数据格式:
此次的数据格式相对比较简单,就是博客 http://blog.youkuaiyun.com/xiaojimanman/article/details/40372189 的结果数据,一行数据格式为:
ip地址空格分隔符出现次数 例: 192.168.1.1 25
需求分析:
在实现mapreduce程序之前,需要考虑的一个问题就是IP地址和归属地之间的转换问题。我这里采用的是百度的阿拉丁接口,接口获取方法,在百度首页输入"IP",就会出现阿拉丁界面。如下图所示:
通过对该部分的网络请求分析,获取地址 http://opendata.baidu.com/api.php?query=122.49.34.58&co=&resource_id=6006&t=1414563340538&ie=utf8&oe=gbk&format=json&tn=baidu&_=1414563341538 可以获取IP的归属地,该接口返回的数据格式如下图所示: