数据清洗(ETL)
1)概述
在运行核心业务Mapreduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行mapper程序,不需要运行reduce程序。
7.7.1 简单解析版
1)需求:
去除日志中字段长度小于等于11的日志。
2)输入数据
194.237.142.21 - - [18/Sep/2013:06:49:18 +0000] "GET /wp-content/uploads/2013/07/rstudio-git3.png HTTP/1.1" 304 0 "-" "Mozilla/4.0 (compatible;)"
183.49.46.228 - - [18/Sep/2013:06:49:23 +

最低0.47元/天 解锁文章
956

被折叠的 条评论
为什么被折叠?



