R语言read.csv乱码问题UTF-8 BOM X.U.FEFF

最新推荐文章于 2025-09-26 14:01:39 发布

原创最新推荐文章于 2025-09-26 14:01:39 发布 · 1.6w 阅读

44 ·

CC 4.0 BY-SA版权

文章标签：

#乱码 #csv #r语言

R 专栏收录该内容

40 篇文章

订阅专栏

本文介绍了解决R语言读取CSV文件时出现乱码的问题，包括检查区域设置、使用正确的文件编码参数，以及如何处理带有BOM的UTF-8文件。

若使用R语言调用data <- read.csv("dataset.csv")文件出现了乱码，解决的方法简单整理如下：

查看R语言运行环境的区域(locale)设置

> Sys.getlocale(category = "LC_ALL")
[1] "LC_COLLATE=Chinese (Simplified)_China.936;LC_CTYPE=Chinese (Simplified)_China.936;LC_MONETARY=Chinese (Simplified)_China.936;LC_NUMERIC=C;LC_TIME=Chinese (Simplified)_China.936"

若区域设置的字符集LC_CTYPE为中文，一般可以断定dataset.csv文件是UTF-8文件格式，此时可以加一个参数：

data <- read.csv("dataset.csv", fileEncoding = "UTF-8")

若还是不能读取数据集，或者使用fileEncoding = "UTF-8"时header出现了X.U.FEFF奇怪的字样，说明UTF-8格式的文件头带了BOM（byte oreder mark，字节顺序标记），此时应该换成fileEncoding = "UTF-8-BOM"：

data <- read.csv("dataset.csv", fileEncoding = "UTF-8-BOM")

注意：

不要使用encoding = "UTF-8"的参数，实际上encoding的参数相当于分两个步骤:
# 1. 读入数据
data <- read.csv("dataset.csv")	
# 2. 对data中有所的字符串进行encoding转码，比如，
# 带中文的factor(或是character)，实际上调用了：
 Encoding(levels(data[,1])  <- "UTF-8"  # 对应列是factor 情形
 # 或
 Encoding(data[,1]) <- "UTF-8"    # 对应列是character情形
不要fileEncoding和encoding两个参数同时使用
原因如同注意1，若是fileEncoding和encoding同时指定`UTF-8’, 相当于对字符串进行两次转码。