Pandas读取的几个问题

本文介绍了Python中处理文件路径的常见错误及其解决方法,包括如何正确处理包含特殊字符和中文的路径。此外还详细说明了使用pandas进行数据分割的方法,包括指定分隔符和使用空白字符作为分隔符。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 错误代码为"SyntaxError: (unicode error) ‘unicodeescape’ codec can’t decode bytes in position 2-3: truncated \UXXXXXXXX escape"

原因:

window 读取文件可以用\,但是在字符串中\是被当作转义字符来使用,所以’d:\a.txt’会被转义成’d:\a.txt’这是正确路径,所以不会报错。而‘C:\Users\FrankYuan\Pictures\Camera Roll\WIN_20161010_08_51_57_Pro.jpg ’中经过转义之后可能就找不到路径的资源了,例如\t可能就转义成tab键了。

解决办法

python在描述路径时可以有多种方式,现列举常见的三种

方式一:转义的方式

'd:\\a.txt'

方式二:显式声明字符串不用转义,字符串前加r

r'd:\a.txt'

方式三:使用Linux的路径/

'd:/a.txt'

推荐第三种写法,这在Linux和window下都是行的通的。

参考:
[1] https://blog.youkuaiyun.com/u011242657/article/details/64437612

2. 读取路径中含有中文字符

with open("file/训练集表_train.csv") as f:
    train = pd.read_csv(f)
f.close()

参考:
[1] https://blog.youkuaiyun.com/weixin_43326769/article/details/84203022

3. 数据分割

sep : str , default’,’.
#指定分隔符,默认用”,“分割”,"\s"通配任一空白字符,等价于[ \f\n\r\t\v],“\s+”则匹配任意多个空白字符

df =pd.read_csv("data.txt",sep='\s+',header =None)

delim_whitespace : boolean, default False.

是否指定空格(例如’ ‘或者’\t ‘)作为分隔符使用,等效于设定sep=’\s+’。如果这个参数设定为Ture那么delimiter 参数失效。
这一条没看懂,但是多个空格是可以起作用的。

df =pd.read_csv("data.txt",delim_whitespace = True,header =None)

参考:
[1] https://blog.youkuaiyun.com/sinat_35562946/article/details/81058221

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值