pandas_ load_data 处理环节

本文详细介绍Pandas库中关键函数的使用方法,包括数据类型转换、列删除、列名修改、位置选择以及数据帧转置等操作,为数据处理提供实用技巧。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. astype

astype参考 进行强制转换

2. df.__delitem__

在这里插入图片描述df.__delitem__是删除列数

>>> df2
  animals0  max_speed1 ranking2
0   parrot        24.0   second
1     lion        80.5        1
2   monkey         NaN     None
>>> df2.__delitem__('ranking2')
>>> df2
  animals0  max_speed1
0   parrot        24.0
1     lion        80.5
2   monkey         NaN
############
>>> df2
  animals0  max_speed1  ranking  ranking111  ranking211  ranking211d
0   parrot        24.0        2        25.0        25.0         25.0
1     lion        80.5        3         3.0         NaN          NaN
2   monkey         NaN        5         NaN         NaN          NaN
>>> df2.__delitem__('ranking111')
>>> df2
  animals0  max_speed1  ranking  ranking211  ranking211d
0   parrot        24.0        2        25.0         25.0
1     lion        80.5        3         NaN          NaN
2   monkey         NaN        5         NaN          NaN

3.df.columns 修改列label

在这里插入图片描述

>>> df2.columns
Index(['hhh', 'dd', 'cc'], dtype='object')
>>> df2
      hhh    dd      cc
0  parrot  24.0  second
1    lion  80.5       1
2  monkey   NaN    None
>>> df2.columns = ['animals0','max_speed1','ranking2']
>>> df2
  animals0  max_speed1 ranking2
0   parrot        24.0   second
1     lion        80.5        1
2   monkey         NaN     None


4.iloc loc的位置

在这里插入图片描述

>>> df = df2.loc[1:3]
>>> df
  animals0  max_speed1  ranking  ranking211  ranking211d
1     lion        80.5        3         NaN          NaN
2   monkey         NaN        5         NaN          NaN
>>> df1 = df2.iloc[1:3]
>>> df1
  animals0  max_speed1  ranking  ranking211  ranking211d
1     lion        80.5        3         NaN          NaN
2   monkey         NaN        5         NaN          NaN
>>> df1 = df2.iloc[:,0:2]
>>> df1
  animals0  max_speed1
0   parrot        24.0
1     lion        80.5
2   monkey         NaN

5.pd.T

  • 相当于转置
    在这里插入图片描述
>>> df3 = df1.T
>>> df3
                 0     1       2
animals0    parrot  lion  monkey
max_speed1      24  80.5     NaN
>>>

6. df.as_matrix

在这里插入图片描述

  • df3转换为了array[[xx],[yy]]
>>> df3
                 0     1       2
animals0    parrot  lion  monkey
max_speed1      24  80.5     NaN
>>> df3.as_matrix(columns=None)
__main__:1: FutureWarning: Method .as_matrix will be removed in a future version. Use .values instead.
array([['parrot', 'lion', 'monkey'],
       [24.0, 80.5, nan]], dtype=object)

as_matrix official document

### 关于 `load_data` 函数的意义及用法 在编程领域,尤其是机器学习和深度学习项目中,`load_data` 是一种常见的命名约定,用于表示加载数据的功能。尽管具体的实现可能因上下文而异,但其核心功能通常是将外部存储的数据(如文件、数据库或其他形式的输入源)导入到程序内存中以便进一步处理。 #### 数据加载的核心意义 1. **初始化模型训练或测试所需的数据集** 在许多框架中,`load_data` 方法通常被用来准备训练集、验证集以及测试集。这些数据可以来源于本地磁盘上的 CSV 文件、图像目录、JSON 文件或者远程服务器上的 API 接口等[^1]。 2. **提供统一接口访问不同类型的资源** 不同的应用场景下,数据的形式各异。通过定义一个通用的 `load_data` 函数,开发者能够抽象化底层细节,使得调用者无需关心具体的数据来源或格式转换逻辑[^2]。 3. **支持预处理操作** 很多时候,在实际使用之前还需要对原始数据执行一系列变换,比如归一化数值范围、编码分类标签、裁剪图片尺寸等等。因此部分实现会内置一些简单的前处理步骤作为附加特性之一[^3]。 以下是基于 Python 编程语言的一个典型例子展示如何构建并运用此类工具: ```python import numpy as np from sklearn.model_selection import train_test_split def load_data(path_to_dataset): """Simulates loading a dataset from given path.""" # Assume we have some way of reading the data into memory here... raw_features = [...] # Placeholder for actual feature extraction code. labels = [...] # Corresponding target values. X_train, X_temp, y_train, y_temp = train_test_split( raw_features, labels, test_size=0.3, random_state=42) X_val, X_test, y_val, y_test = train_test_split( X_temp, y_temp, test_size=0.5, random_state=42) return (X_train, y_train), (X_val, y_val), (X_test, y_test) (X_trn, Y_trn), _, _ = load_data("/path/to/my/dataset") print(f"Training samples shape: {np.shape(X_trn)}") ``` 上述片段展示了怎样利用自定义辅助函数来分割整个集合成为三个独立子集的过程,并最终打印出训练样本的数量信息[^4]。 --- #### 可能涉及的相关技术点扩展说明 - 如果是在 TensorFlow/Keras 中,则该名称往往对应着官方文档里推荐的标准流程的一部分; - 对 Pandas 用户而言,它可能是封装好的 read_csv 或 concat 调用链表结构体; - 当讨论 R 统计分析环境下的 ggplot 动态绘图组件时,“动态载入”概念同样适用——即随着新批次观测值加入调整视图布局参数设置[^5]。 总之,无论哪种情况都强调了清晰分离职责的重要性:让专门负责获取外界素材的部分保持简洁明了的同时也为后续高级定制留足空间余地。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值