人工智能学习笔记4——Pandas

Pandas安装

  • conda安装:注意要与使用的环境进行匹配 conda install pandas
  • pip安装:需要安装pip 使用pip install pandas

Pandas使用

Series类型使用

  • 定义与常见特点
import numpy as np
import pandas as pd

#此处表面上是pandas中的Series类型,但底层应用的是numpy
g7 = pd.Series([35.467, 63.951, 80.940,
                60.665, 127.061, 64.511, 318.523])
print(g7.dtype)
print(g7.values)
print(type(g7.values))

print(g7.index)
#在没有指定序号的时候,序号通常是从0开始的自然数
g7.index = [
    'canada',
    'France',
    'Germany',
    'Italy',
    'Japan',
    'United Kingdom',
    'United States'
]
print(g7)
#自定义了序号的序列可以类比于python的字典,不同之处在于其自带顺序
g7.name = 'G7 Population in millions'
  • 此处可以直接在定义时将序号名称带入
  • 在不是默认序号的序列的情况下,切片的方法和注意事项
#以下三种均为第一个值的取值方法
print(g7[0])
print(g7.iloc[0])
print(g7['canada'])

#通常[:2]无法得到最后一个位置元素,可以采用以下方法
print(g7['canada':'Italy'])

 DataFrame的使用

  • 特点:每一列都可以看作Series,看作多个Series的组合
  • 基本使用和增加减少信息
df = pd.DataFrame({
    'Population': [35.467, 63.951, 80.940, 60.665, 127.061, 64.511, 318.523],
    'GDP':[1785387, 2833687, 3874437, 2167744, 4602367, 2950039, 17348075],
    'Continent':['America', 'Europe', 'Europe', 'Europe', 'Asia', 'Europe', 'America']},
     columns=['Population', 'GDP', 'Continent']
)
df.index = [
    'canada',
    'France',
    'Germany',
    'Italy',
    'Japan',
    'United Kingdom',
    'United States'
]
print(df)

print(df.columns)
print(df.index)
print(df.info())
#会告诉我们一些基础信息,同时告诉我们是否存在空值,便于进行数据清洗
print(df.describe())
#会告诉我们一些基础信息,例如:数据储存所需要的内存,常见的一些数字特征(总计、平均值、标准差、最大最小、四分之一二三分位数),列的数据类型等
print(df.dtypes.value_counts())

print('____________________________')
print(df.loc['canada'])
#根据序号来选择一行
print(df.iloc[-1])
#根据数字序号来选择一行
print(df['Population'])
#选择一列

print(df.loc['France':'Italy', 'Population'])
#同时对于行列进行限制

#对于df中的数据进行删除,可以使用drop函数
print(df.drop('canada'))

#广播机制
print(df[['Population', 'GDP']] / 100)
crisis = pd.Series([-1_000_000, -0.3], index=['GDP', 'Population'])
print(df[['GDP', 'Population']] + crisis)
#修改dataframe会返回一个新的dataframe

#通过其他列来形成新的列
df['GDP Per capata'] = df['GDP'] / df['Population']
print(df)
  • 常用函数
population = df['Population']
#中位数
print(population.median())
#四分之一
print(population.quantile(.25))
print(population.quantile([.2,.4,.6,.8,1]))

外部文件导入

  • 文件导入和常见消息

import numpy as np
import pandas as pd

df = pd.read_csv('dta/test.csv')
#开始五条
print(df.head())

print(df.info())
#默认最后五条,此处是最后三条
print(df.tail(3))
df = pd.read_csv(
    'dta/test.csv',
    header = None,
    names = ['income', 'outcome'],
    index_col = 0,#将第一列作为index
    parse_dates=True
)
print(df)

代码:test05、test06

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值