文件存入hadoop出现乱码,尤其是在windows下的cygwin环境测试时候 囧
建议使用如下配置,而不是去改hadoop源码:
hadoop-env.sh
export HADOOP_OPTS="-server -Dfile.encoding=utf-8 -Duser.language=zh"
mapred-site.xml
<property>
<name>mapred.child.java.opts</name>
<value>-Dfile.encoding=utf-8 -Duser.language=zh -Xmx200m</value>
</property>
java -server -Xms512m -Xmx1g -Dfile.encoding=utf-8 -Duser.language=zh
书签一枚:
Yahoo! Hadoop Tutorial
很困扰的问题 DistributedCache:
http://autofei.wordpress.com/2011/04/07/distributedcache-incompleted-guide/
本文介绍了如何在Hadoop环境下解决文件存取时出现的乱码问题,特别是在Windows下的cygwin环境中。通过配置hadoop-env.sh和mapred-site.xml文件来指定文件编码为UTF-8,可以有效避免乱码问题。
11万+

被折叠的 条评论
为什么被折叠?



