set mapreduce.job.cache.files 'hdfs://192.168.100.163:9000/user/blacklist.txt#blacklist';
register ExtractAndTransform.jar
all_weblogs = load 'hdfs://192.168.100.163:9000/user/apache_tsv.txt' as(ip:chararray,timestamp:long,page:chararray,http_status:int,payload_size:int,useragent:chararray);
nobots_weblogs = FILTER all_weblogs BY NOT com.sn.hadoop.extract.pig.IsUseragentBot(useragent);
store nobots_weblogs into 'hdfs://192.168.100.163:9000/user/nobots_weblogs_another';
1、路径对应的都是HDFS
2、'='两侧都应该有个空格
本文介绍了一种使用Hadoop处理Web日志的方法,通过Pig Latin脚本从HDFS加载原始日志文件,并利用自定义函数过滤掉由已知爬虫产生的记录,最后将清洗后的日志保存回HDFS。
930

被折叠的 条评论
为什么被折叠?



