numpy和pandas的一些函数和方法

本文介绍如何使用Pandas和NumPy进行数据处理,包括读取CSV文件生成DataFrame,利用np.union1d求并集,以及通过loc和iloc选取特定列的方法。同时,展示了如何创建DataFrame格式的数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

numpy和pandas的一些函数和方法

导入库:

import numpy as np
import pandas as pd

1. 读取csv或xlsx数据,生成DataFrame数据格式

代码:

f = open(r'data/example_data_1/stormofswords.csv')

df = pd.read_csv(f)

2. np.union1d求数组并集,返回一个list格式数据

代码:

    test = np.union1d([-1, 0, 1], [-2, 0, 2])
    print(test)

结果为

    [-2 -1  0  1  2]

3. loc和iloc选取特定列

假设df是一个dataframe,列名为A B C D:

A    B    C    D
 
0    ss   小红  8
1    aa   小明  d
4    f         f
6    ak   小紫  7

dataframe里的属性不是指定的,空值默认为NA。

选取标签为A和C的列,并且选完的对象类型还是dataframe:

    df = df.loc[ : ,['A', 'C']]
    df = df.iloc[ : ,[0, 2]]

选取标签为C并且只取前两行,并且选完的对象类型还是dataframe:

    df = df.loc[0:2, ['A', 'C']]
    df = df.iloc[0:2, [0, 2]] 

lociloc区别:loc是根据dataframe的具体标签选取列,而iloc是根据标签所在的位置,从0开始计数。

:切片之后类型依旧是dataframe,不能直接进行加减乘除等操作的

比如dataframe的一列是数学成绩(shuxue),另一列为语文成绩(yuwen),现在需要求两门课程的总和,可以使用:

    df['shuxue'] + df['yuwen'] # 选取完之后类型为series

4. 创建DataFrame格式数据

代码

    matrix = pd.DataFrame(0, index=label, columns=label)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值