numpy 导入数据 ——np.loadtxt()

np.loadtxt()

np.loadtxt()用于从文本加载数据。

Hint:文本文件中的每一行必须含有相同的数据。

loadtxt(fname, dtype=<class 'float'>, comments='#', delimiter=None, converters=None, skiprows=0, usecols=None, unpack=False, ndmin=0)

  • fname要读取的文件、文件名、或生成器。

  • dtype数据类型,默认float。

  • comments注释。

  • delimiter分隔符,默认是空格。

  • skiprows跳过前几行读取,默认是0,必须是int整型。

  • usecols要读取哪些列,0是第一列。例如,usecols = (1,4,5)将提取第2,第5和第6列。默认读取所有列。

  • unpack如果为True,将分列读取。

例子

import numpy as np
path = r"C:\Users\pandas\Desktop\task\Factors_Monthly.csv"
# data = pd.read_csv(path)
data = np.loadtxt(path)
ValueError: could not convert string to float: 'yyyymm,year,rf,mktrf,smb,hml' 

出现的原因是第一行数据类型与下文的数据数据类型不同。通常跳过第一行,再进行导入。

data = np.loadtxt(path,delimiter = ",", skiprows = 1)
data
array([[ 1.92607e+05,  1.92600e+03,  2.20000e-01,  2.96000e+00,
        -2.30000e+00, -2.87000e+00],
       [ 1.92608e+05,  1.92600e+03,  2.50000e-01,  2.64000e+00,
        -1.40000e+00,  4.19000e+00],
       [ 1.92609e+05,  1.92600e+03,  2.30000e-01,  3.60000e-01,
        -1.32000e+00,  1.00000e-02],
       ...,
       [ 2.01907e+05,  2.01900e+03,  1.90000e-01,  1.19000e+00,
        -2.07000e+00,  1.40000e-01],
       [ 2.01908e+05,  2.01900e+03,  1.60000e-01, -2.58000e+00,
        -2.41000e+00, -4.99000e+00],
       [ 2.01909e+05,  2.01900e+03,  1.80000e-01,  1.44000e+00,
        -8.90000e-01,  6.73000e+00]])
### 使用 NumPy 读取数据文件 NumPy 提供了多种方法来读取不同格式的数据文件。对于常见的文本文件和 CSV 文件,`numpy.loadtxt()` 和 `numpy.genfromtxt()` 是两个常用函数。 #### 使用 `loadtxt` 函数读取简单结构化的文本文件 当文件具有简单的分隔符(如空格、逗号等),可以使用 `numpy.loadtxt()` 来加载数据: ```python import numpy as np # 假设有一个名为 'data.txt' 的文件,其中每行包含若干由空格分隔的数值 data = np.loadtxt('data.txt') print(data) ``` 如果文件中有特定字符表示注释或者不同的字段分隔方式,则可以通过设置参数来自定义行为[^1]。 #### 处理更复杂的情况——带有缺失值或其他特殊需求 对于更加复杂的场景,比如存在缺失值或是需要跳过某些行时,推荐使用 `numpy.genfromtxt()` 或者编写自定义解析逻辑。下面是一个例子展示如何处理带标签的数据集并将其分为特征矩阵与类别向量两部分[^3]: ```python def load_data(fname): labels = [] features = [] with open(fname) as f: for line in f: parts = line.strip().split(',') # 删除数据中的逗号 labels.append(int(parts[-1])) # 取出最后一列为标签 features.append(np.array(parts[:-1], dtype=float)) # 将剩余列转换成浮点数列表 return (np.array(labels), np.array(features)) training_labels, training_features = load_data("train.csv") testing_labels, testing_features = load_data("test.csv") print(training_features.shape) # 输出训练样本数量及特征维度 print(testing_features.shape) # 同上,针对测试集 ``` 此外,在面对二进制文件或者其他非标准输入源的情况下,还可以考虑利用 `numpy.fromfile()` 方法直接从磁盘读入原始字节流再做进一步加工[^5]。 #### 利用切片操作访问子集 一旦完成了整个数据表的导入工作之后,就可以很方便地通过索引来获取任意位置上的元素或片段。例如,要提取某几行某几列的内容,只需指定相应的下标即可[^4]: ```python subset = data[0:5, :] # 获取前五行全部列的数据 column_two = data[:, 1] # 抽取第二列的所有记录 row_three_to_five_cols_one_and_four = data[2:5, [0, 3]] # 表达式支持多维索引 ``` 以上就是关于怎样运用 NumPy 库来进行基本的数据读取任务的一些介绍和技术要点说明。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ACxz

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值