Pandas 读取txt表格

本文介绍如何利用Python的Pandas库从特定路径读取txt格式的数据文件,并通过设置不同的参数来确保数据能被正确解析,包括指定编码格式、分隔符及索引列。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

import pandas as pd
data = pd.read_table('Z:/test.txt',header=None,encoding='gb2312',delim_whitespace=True,index_col=0)
#header=None:没有每列的column name,可以自己设定
#encoding='gb2312':其他编码中文显示错误
#delim_whitespace=True:用空格来分隔每行的数据
#index_col=0:设置第1列数据作为index

参考的网址:
http://blog.youkuaiyun.com/u011077672/article/details/50960580

<think>我们被要求使用pandas读取xlsx文件。根据引用[1],pandas可以加载Excel文件(.xlsx),但需要安装额外的模块。引用[2]和[3]也提到了使用pandas处理xlsx文件。 步骤: 1. 确保安装了必要的依赖库:pandas和openpyxl(或xlrd,但注意xlrd最新版不支持xlsx,所以通常推荐openpyxl)。 2. 使用pandas的read_excel函数读取文件。 具体操作: 首先,安装openpyxl(如果尚未安装): pip install openpyxl 然后,在代码中: import pandas as pd df = pd.read_excel('文件路径.xlsx', engine='openpyxl') 注意:从pandas 1.2.0开始,默认使用openpyxl读取.xlsx文件,因此可以省略engine参数。但为了确保兼容性,特别是当系统中有多个引擎时,可以指定engine。 如果文件有多个工作表,可以通过sheet_name参数指定要读取的工作表(可以按名称或索引)。 示例: df = pd.read_excel('example.xlsx', sheet_name='Sheet1', engine='openpyxl') 如果读取文件,引用[2]提到pandas可以处理Excel无法打开的大文件,但要注意内存使用。 引用[3]中的示例:加载scimagojr-3.xlsx文件,直接使用read_excel。 因此,我们给出一个完整的示例代码:</think>### 如何用 Pandas 读取 XLSX 文件 以下是使用 Pandas 读取 Excel (.xlsx) 文件的详细步骤: #### 1. **安装必要依赖** Pandas 需要额外引擎处理 Excel 文件: ```bash pip install pandas openpyxl ``` > 📌 `openpyxl` 是专门处理 .xlsx 格式的库,Pandas 依赖它进行读写操作[^1] #### 2. **基础读取方法** ```python import pandas as pd # 读取整个文件(默认读取第一个工作表) df = pd.read_excel("文件名.xlsx", engine="openpyxl") # 查看前5行数据 print(df.head()) ``` #### 3. **高级参数配置** ```python # 读取特定工作表(按名称或索引) df_sheet2 = pd.read_excel("data.xlsx", sheet_name="Sheet2", # 或 sheet_name=1(索引从0开始) engine="openpyxl") # 指定读取列(提高大文件处理效率) df = pd.read_excel("large_file.xlsx", usecols=["列名A", "列名C"], # 只读取指定列 engine="openpyxl") # 处理缺失值(将特定值替换为NaN) df = pd.read_excel("data.xlsx", na_values=["N/A", "缺失"], engine="openpyxl") ``` #### 4. **大文件处理技巧** 当处理大型 Excel 文件时(如引用[2]所述场景): ```python # 分块读取(适合内存不足的情况) chunk_size = 10_000 # 每块1万行 chunks = pd.read_excel("large_data.xlsx", chunksize=chunk_size, engine="openpyxl") for chunk in chunks: process(chunk) # 逐块处理数据 ``` #### 5. **常见问题解决** - **文件路径问题**:使用原始字符串或双反斜杠 ```python df = pd.read_excel(r"C:\文件夹\data.xlsx") # Windows 路径 ``` - **编码问题**:指定文件编码 ```python df = pd.read_excel("data.xlsx", encoding="utf-8") ``` - **日期解析**:自动转换日期列 ```python df = pd.read_excel("sales.xlsx", parse_dates=["订单日期"]) ``` > ⚠️ 注意:Pandas 1.3.0+ 版本默认支持 `openpyxl`,但显式声明 `engine="openpyxl"` 可确保兼容性
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值