人工智能学习笔记4——Pandas

原创已于 2025-03-12 21:30:13 修改 · 216 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #学习 #笔记

于 2025-03-10 23:28:46 首次发布

人工智能专栏收录该内容

6 篇文章

订阅专栏

Pandas安装

conda安装：注意要与使用的环境进行匹配 conda install pandas
pip安装：需要安装pip 使用pip install pandas

Pandas使用

Series类型使用

定义与常见特点

import numpy as np
import pandas as pd

#此处表面上是pandas中的Series类型，但底层应用的是numpy
g7 = pd.Series([35.467, 63.951, 80.940,
                60.665, 127.061, 64.511, 318.523])
print(g7.dtype)
print(g7.values)
print(type(g7.values))

print(g7.index)
#在没有指定序号的时候，序号通常是从0开始的自然数
g7.index = [
    'canada',
    'France',
    'Germany',
    'Italy',
    'Japan',
    'United Kingdom',
    'United States'
]
print(g7)
#自定义了序号的序列可以类比于python的字典，不同之处在于其自带顺序
g7.name = 'G7 Population in millions'

此处可以直接在定义时将序号名称带入
在不是默认序号的序列的情况下，切片的方法和注意事项

#以下三种均为第一个值的取值方法
print(g7[0])
print(g7.iloc[0])
print(g7['canada'])

#通常[:2]无法得到最后一个位置元素,可以采用以下方法
print(g7['canada':'Italy'])

DataFrame的使用

特点：每一列都可以看作Series，看作多个Series的组合
基本使用和增加减少信息

df = pd.DataFrame({
    'Population': [35.467, 63.951, 80.940, 60.665, 127.061, 64.511, 318.523],
    'GDP':[1785387, 2833687, 3874437, 2167744, 4602367, 2950039, 17348075],
    'Continent':['America', 'Europe', 'Europe', 'Europe', 'Asia', 'Europe', 'America']},
     columns=['Population', 'GDP', 'Continent']
)
df.index = [
    'canada',
    'France',
    'Germany',
    'Italy',
    'Japan',
    'United Kingdom',
    'United States'
]
print(df)

print(df.columns)
print(df.index)
print(df.info())
#会告诉我们一些基础信息，同时告诉我们是否存在空值，便于进行数据清洗
print(df.describe())
#会告诉我们一些基础信息，例如：数据储存所需要的内存，常见的一些数字特征（总计、平均值、标准差、最大最小、四分之一二三分位数），列的数据类型等
print(df.dtypes.value_counts())

print('____________________________')
print(df.loc['canada'])
#根据序号来选择一行
print(df.iloc[-1])
#根据数字序号来选择一行
print(df['Population'])
#选择一列

print(df.loc['France':'Italy', 'Population'])
#同时对于行列进行限制

#对于df中的数据进行删除，可以使用drop函数
print(df.drop('canada'))

#广播机制
print(df[['Population', 'GDP']] / 100)
crisis = pd.Series([-1_000_000, -0.3], index=['GDP', 'Population'])
print(df[['GDP', 'Population']] + crisis)
#修改dataframe会返回一个新的dataframe

#通过其他列来形成新的列
df['GDP Per capata'] = df['GDP'] / df['Population']
print(df)

常用函数

population = df['Population']
#中位数
print(population.median())
#四分之一
print(population.quantile(.25))
print(population.quantile([.2,.4,.6,.8,1]))

外部文件导入

文件导入和常见消息

import numpy as np
import pandas as pd

df = pd.read_csv('dta/test.csv')
#开始五条
print(df.head())

print(df.info())
#默认最后五条，此处是最后三条
print(df.tail(3))
df = pd.read_csv(
    'dta/test.csv',
    header = None,
    names = ['income', 'outcome'],
    index_col = 0,#将第一列作为index
    parse_dates=True
)
print(df)

代码：test05、test06