- 博客(1)
- 收藏
- 关注
原创 Hadoop处理中文的简易方法
<br /> 最近在Hadoop上处理有中文的gbk编码文本数据,发现会出现乱码。在网上搜索了一下,基本上都是说要重新做一个TextOutputFormat,觉得比较麻烦。所以,自己分析了一下TextOutputFormat的源码,其实关键就在LineReader和Text两个类上。<br />public class LineReader<br /> {<br /> private static final int DEFAULT_BUFFER_SIZE = 64 * 1024;<br />
2011-04-29 21:00:00
1217
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅