numpy中的converters和usecols用法

本文介绍了在Python中使用pandas读取Excel数据时,如何处理空值问题以及如何选择和转换特定列。通过设置`converters`参数将'学号'和'ID'列转换为字符串,确保后续操作的顺利进行。同时,展示了三种不同的方法:指定列名`usecols`配合`sheet_name`,使用numpy的`arange`选择列,以及通过列区间切片。这些技巧对于高效处理Excel数据至关重要。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

用Python打开Excel数据,读取时需要将”学号“和“ID"转换成字符,以便后续操作

df = pd.read_excel(path, converters={'学号': str, 'ID': str})

在这里插入图片描述


以下是我的经历来体会:

我在从Excel读入python的数据时,发现读出的是空值:

import pandas as pd 
df=pd.read_excel("D:/Python/05DataMineML/2022STU(1).xlsx")
df

在这里插入图片描述

但是分明是有数据的,大概率出现的原因是sheetname(表的名称)出现了问题。

那就试试其他的方法:

下图是Excel的表头,共有115行数据。
在这里插入图片描述
方法一:使用usecols

#获取字段的第一种写法
import pandas as pd
df=pd.read_excel('../05DataMineML/2022STU(1).xlsx',usecols=['学号','姓名','20220101','20220125','20220202','20220208','20220213','20220220','20220226','20220311','20220320','20220327','20220403','randscore'],index_col='姓名',sheet_name='2022STUMOOC')
df.info()

index_col:指定作为表格的索引值
usecols:pandas读取excel使用read_excel()中的usecols参数读取指定的列
sheet_name:表名
在这里插入图片描述

重点:要使用usecols参数,sheet_name必须显式写出来。
在这里插入图片描述
方法二:使用numpy

#获取字段的第二种写法:使用numpy
import pandas as pd
import numpy as np
df=pd.read_excel('../05DataMineML/2022STU(1).xlsx',converters={'学号':str},usecols=np.arange(3,16),index_col='姓名',sheet_name='2022STU')
df.head()

这里就涉及converters:

converters={'学号':str}:将学号转换为字符类型,以便后续操作。
在这里插入图片描述
这里使用了usecols=np.arange(3,16)
在这里插入图片描述

方法三:使用切片区间

#获取字段的第三种写法:切片区间
import pandas as pd
import numpy as np
df=pd.read_excel('../05DataMineML/2022STUMOOC (1).xlsx',converters={'学号':str},usecols=("D:P"),index_col='姓名',sheet_name='2022STUMOOC')
df

这里使用了usecols=("D:P"),也就是使用了如下图每列的序号值做切片
在这里插入图片描述
在这里插入图片描述


总结:

  • converters用法:转换类型。比如将Excel数据一列从int变成str
  • usecols用法:
    1. usecols=[‘学号’,‘姓名’]
    1. usecols=np.arange(3,16)
    1. usecols=(“D:P”)
### 使用 NumPy 读取 TXT 文件 NumPy 提供了 `loadtxt` 函数用于从文本文件中加载数据。此函数可以处理简单的分隔符并支持自定义的数据类型转换器。 对于基本的文本文件读取操作,可以直接调用 `numpy.loadtxt()` 并指定文件名其他必要参数: ```python import numpy as np data = np.loadtxt('filename.txt') ``` 当面对更复杂的场景时,比如存在注释行或特定字段分隔符的情况,则可以通过设置额外选项来适应需求[^1]。 如果文件中的每一列代表不同的变量,并且这些变量具有不同类型的数值(整数、浮点数),那么应该通过 dtype 参数传递结构化数据类型描述符给 loadtxt 方法;另外还可以利用 converters 来预处理某些特殊格式的数据项[^3]。 下面给出一段完整的例子,展示如何配置上述提到的各种属性以实现灵活高效的文本导入功能: ```python import numpy as np def read_txt_file(file_path): # 定义每列表达式的解析方式 converter_dict = { 0: lambda s: float(s.strip() or 'nan'), # 对于可能为空白的第一列采用默认值 nan 处理 1: int, 2: str } try: data = np.loadtxt( fname=file_path, # 输入文件路径 dtype={'names': ('col1', 'col2', 'col3'), 'formats': (float, int, object)}, # 结构化的dtype定义 comments='#', # 注释标记字符,默认为 '#' delimiter=',', # 字段之间的分割符号 unpack=False, # 是否转置返回矩阵 usecols=(0, 1, 2), # 只选取前三列作为输出 converters=converter_dict # 自定义转换逻辑字典 ) return data except Exception as e: print(f"Error occurred during loading the text file: {str(e)}") raise ``` 这段代码展示了如何使用 `np.loadtxt` 加载带有逗号分隔的不同类型数据的 .txt 文件,并应用了一些实用的功能特性,如错误处理机制以及针对各列定制化的转换规则。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

温欣2030

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值