Pandas读取的几个问题

最新推荐文章于 2024-02-14 12:02:36 发布

原创最新推荐文章于 2024-02-14 12:02:36 发布 · 580 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#pandas

python 专栏收录该内容

10 篇文章

订阅专栏

本文介绍了Python中处理文件路径的常见错误及其解决方法，包括如何正确处理包含特殊字符和中文的路径。此外还详细说明了使用pandas进行数据分割的方法，包括指定分隔符和使用空白字符作为分隔符。

1. 错误代码为"SyntaxError: (unicode error) ‘unicodeescape’ codec can’t decode bytes in position 2-3: truncated \UXXXXXXXX escape"

原因：

window 读取文件可以用\，但是在字符串中\是被当作转义字符来使用，所以’d:\a.txt’会被转义成’d:\a.txt’这是正确路径，所以不会报错。而‘C:\Users\FrankYuan\Pictures\Camera Roll\WIN_20161010_08_51_57_Pro.jpg ’中经过转义之后可能就找不到路径的资源了，例如\t可能就转义成tab键了。

解决办法

python在描述路径时可以有多种方式，现列举常见的三种

方式一:转义的方式

'd:\\a.txt'

方式二:显式声明字符串不用转义,字符串前加r

r'd:\a.txt'

方式三:使用Linux的路径/

'd:/a.txt'

推荐第三种写法，这在Linux和window下都是行的通的。

参考:
[1] https://blog.youkuaiyun.com/u011242657/article/details/64437612

2. 读取路径中含有中文字符

with open("file/训练集表_train.csv") as f:
    train = pd.read_csv(f)
f.close()

参考:
[1] https://blog.youkuaiyun.com/weixin_43326769/article/details/84203022

3. 数据分割

sep : str , default’,’.
#指定分隔符，默认用”,“分割”，"\s"通配任一空白字符，等价于[ \f\n\r\t\v],“\s+”则匹配任意多个空白字符

df =pd.read_csv("data.txt",sep='\s+',header =None)

delim_whitespace : boolean, default False.

是否指定空格(例如’ ‘或者’\t ‘)作为分隔符使用，等效于设定sep=’\s+’。如果这个参数设定为Ture那么delimiter 参数失效。
这一条没看懂，但是多个空格是可以起作用的。

df =pd.read_csv("data.txt",delim_whitespace = True,header =None)

参考:
[1] https://blog.youkuaiyun.com/sinat_35562946/article/details/81058221