csv字符编码修改,中文乱码,文件格式为ISO-8859 text, with CRLF line terminators

在尝试将CSV文件加载到Hive表时遇到中文乱码问题,文件显示为ISO-8859 text, with CRLF。尝试使用代码进行编码转换失败,但通过搜索了解到可以用GBK编码处理。最终,将ISO-8859编码的CSV文件视为GBK编码后,乱码问题得到解决,程序运行成功。" 83552369,7914923,NLP基础学习与实践,"['自然语言处理', 'NLP', '机器学习', '文本分析']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

先吐槽一句,md有点坑~

今天遇到一个问题,就是做一个csv文件进行统计的时候,我需要把数据加载到Hive表中,为了方便查询,创建外部表以后,将数据文件放到HDFS系统的目录下面以后,发现csv文件出现了中文乱码:后来查看文件格式发下如下:

文件是什么鬼?怎么转换,然后写代码,通过文件流来进行转换,发现md不行,代码如下:

package files;

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.nio.charset.Charset;

public class FileRW {

	public static void main(String[] args) throws Exception {
		BufferedReader br = new BufferedReader(new InputStreamReader (
				new FileInputStream ("/Users/zhangchenguang/Desktop/china_cities_20160101(1).csv"),
				"ISO-8859"
			)
		);
        BufferedWriter bw = new BufferedWriter (new OutputStreamWriter (
        		new FileOutputStream ("/Users/zhangcheng
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

掉进悬崖的狼

请博主喝杯奶茶

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值