案例十三:多格式文件输出MultipleOutputs
多格式输出文件,就当是一份文件不同的数值类型输出。
这样也很方便往hive加载数据,也方便sqoop迁移数据。直接上代码。
先把用到数据格式贴一下:
asd126
com
wer 163
com
ewyrophwwq sinacom
asdh 126
com
214 tom
com
asfdj tom
com
45dsf 163
com
hadsfl 126
com
hdsla 163
com
po80 sina
com
uopr 163
com
hfreih tom
com
hfs 126
com
hfsl tom
com
fdhs 126
com
ahdfl 163
com
afjkdsl sina
com
类似邮箱的格式,如果是邮箱的格式最好还是先awk或者cut一下,
换一下普通的分隔符,不然好像会报错,写不了数据,可能会报readshort。
下面是结果,有两个都在/out/222,分别是FormatText和FormatIntWritable开头的文件,还有一个文件我定义在了/out/下面