Pandas基础03

1.随机抽样

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)

参数

  • n:要抽取的行数

  • frac:抽取的比例,比如 frac=0.5,代表抽取总体数据的50%

  • replace:布尔值参数,表示是否以有放回抽样的方式进行选择,默认为 False,取出数据后不再放回

  • weights:可选参数,代表每个样本的权重值,参数值是字符串或者数组

  • random_state:可选参数,控制随机状态,默认为 None,表示随机数据不会重复;若为 1 表示会取得重复数据

  • axis:示在哪个方向上抽取数据(axis=1 表示列/axis=0 表示行)

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

# 创建一个4x5的随机数数组
data = np.random.randn(5, 5)

df = pd.DataFrame(data, columns=['A', 'B', 'C', 'D', 'E'])

print('随机选择三行:')
print(df.sample(n=3,axis=0))

print('随机选择两列:')
print(df.sample(n=2,axis=1))

print('随机选择总体60%:')
print(df.sample(axis=0,frac=0.6))

2.空值处理

检测空值

isnull()检测 DataFrame 或 Series 中的空值,返回一个布尔值的 DataFrame 或 Series。
notnull()检测 DataFrame 或 Series 中的非空值,返回一个布尔值的 DataFrame 或 Series。
df = pd.DataFrame(
    data={'A': [1, 2, np.nan, 4],
          'B': [5, np.nan, np.nan, 8],
          'C': [9, 10, 11, 12]}
)

print("检测空值:")
print(df.isnull())

print("检测非空值:")
print(df.notnull())

填充空值

fillna(value)

用于填充 DataFrame 或 Series 中的空值。

df = pd.DataFrame(
    data={'A': [1, 2, np.nan, 4],
          'B': [5, np.nan, np.nan, 8],
          'C': [9, 10, 11, 12]}
)

print("填充:0")
print(df.fillna(0))

删除空值

dropna(axis=0)

用于删除 DataFrame 或 Series 中的包含空值的行或列。

df = pd.DataFrame(
    data={'A': [1, 2, np.nan, 4],
          'B': [5, np.nan, np.nan, 8],
          'C': [9, 10, 11, 12]}
)

print("删除包含空值的行:")
print(df.dropna())

print("删除包含空值的列:")
print(df.dropna(axis=1))

3.文件操作

CSV(Comma-Separated Values,逗号分隔值,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本);

csv文件

to_csv()

将 DataFrame 存储为 csv 文件

read_csv()

从 CSV 文件中读取数据,并创建 DataFrame 对象。

df = pd.DataFrame(
    data=np.random.randn(6, 7)
)
df.to_csv('output.csv',index=False)
reader=pd.read_csv('output.csv')
print(reader)

excel文件

read_excel()

读取 Excel 表格中的数据。

pd.read_excel(io, sheet_name=0, header=0, names=None, index_col=None,
              usecols=None, squeeze=False,dtype=None, engine=None,
              converters=None, true_values=None, false_values=None,
              skiprows=None, nrows=None, na_values=None, parse_dates=False,
              date_parser=None, thousands=None, comment=None, skipfooter=0,
              convert_float=True, **kwds)

参数说明:

参数名称说明
io表示 Excel 文件的存储路径。
sheet_name要读取的工作表名称。
header指定作为列名的行,默认0,即取第一行的值为列名;若数据不包含列名,则设定 header = None。若将其设置 为 header=2,则表示将前两行作为多重索引。
names一般适用于Excel缺少列名,或者需要重新定义列名的情况;names的长度必须等于Excel表格列的长度,否则会报错。
index_col用做行索引的列,可以是工作表的列名称,如 index_col = '列名',也可以是整数或者列表。
usecolsint或list类型,默认为None,表示需要读取所有列。
squeezeboolean,默认为False,如果解析的数据只包含一列,则返回一个Series。
converters规定每一列的数据类型。
skiprows接受一个列表,表示跳过指定行数的数据,从头部第一行开始。
nrows需要读取的行数。
skipfooter接受一个列表,省略指定行数的数据,从尾部最后一行开始。

to_excel()

to_excel() 函数可以将 DataFrame 中的数据写入到 Excel 文件。如果想要把单个对象写入 Excel 文件,那么必须指定目标文件名;如果想要写入到多张工作表中,则需要创建一个带有目标文件名的 ExcelWriter 对象,并通过 sheet_name 参数依次指定工作表的名称。

DataFrame.to_excel(excel_writer, sheet_name='Sheet1', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, startrow=0, startcol=0, engine=None, merge_cells=True, encoding=None, inf_rep='inf', verbose=True, freeze_panes=None) 

参数说明:

参数名称描述说明
excel_wirter文件路径或者 ExcelWrite 对象。
sheet_name指定要写入数据的工作表名称。
na_rep缺失值的表示形式。
float_format它是一个可选参数,用于格式化浮点数字符串。
columns指要写入的列。
header写出每一列的名称,如果给出的是字符串列表,则表示列的别名。
index表示要写入的索引。
index_label引用索引列的列标签。如果未指定,并且 hearder 和 index 均为为 True,则使用索引名称。如果 DataFrame 使用 MultiIndex,则需要给出一个序列。
startrow初始写入的行位置,默认值0。表示引用左上角的行单元格来储存 DataFrame。
startcol初始写入的列位置,默认值0。表示引用左上角的列单元格来储存 DataFrame。
engine它是一个可选参数,用于指定要使用的引擎,可以是 openpyxl 或 xlsxwriter。
df = pd.DataFrame(
    data=np.random.randn(6, 7)
)

df.to_excel("output.xlsx",index=False)
reader = pd.read_excel("output.xlsx")
print(reader)

4.绘图

Pandas 对 Matplotlib 绘图软件包的基础上单独封装了一个plot()接口,通过调用该接口可以实现常用的绘图操作;

只用 pandas 绘制图片可能可以编译,但是不会显示图片,需要使用 matplotlib 库,调用 show() 方法显示图形。

df = pd.DataFrame(
    data={
        'A': [1, 2, 3, 4, 5],
        'B': [10, 20, 25, 30, 40],
        'C': [9, 8, 7, 6,0]
    }
)

# 折线图
df.plot(kind='line')
plt.show()

# 柱状图
df.plot(kind='bar')
plt.show()

# 直方图
df['B'].plot(kind='hist')
plt.show()

# 散点图
df.plot(kind='scatter',x='A',y='C')
plt.show()

# 饼图
df.iloc[1].plot(kind="pie",autopct="%1.1f%%")
plt.show()

5.时间

datetime

datetime 模块提供了用于处理日期和时间的类。

import datetime as dt
import pandas as pd

dt1 = dt.datetime(2024,10,25,16,6,35)
print(dt1)
print(type(dt1))
dt2 = dt.date(2024,10,25)
print(dt2)
print(type(dt2))
dt3 = dt.time(16,6,35)
print(dt3)
print(type(dt3))

Timestamp

Timestamp 是一个特殊的 datetime 类型,用于表示单个时间点。是 pandas 时间序列功能的核心组件,提供了丰富的方法和属性来处理日期和时间数据。

# 从日期字符串创建Timestamp
ts=pd.Timestamp('2024-10-25 16:06:35')
print(ts)


ts = pd.Timestamp(year=2024,month=8,day=9) 
print(ts)

日期解析

pd.to_datetime() 方法用于将字符串或其他格式的日期转换为 Pandas 的 Datetime 对象。

# 将字符串转换为 Datetime 对象
print(pd.to_datetime("2024-10-24 11:15:48 "))
# 获取当前时间
print(pd.datetime.now())
from datetime import datetime
print(datetime.now())

date_range

date_range() 函数用于生成一个固定频率的日期时间索引(DatetimeIndex)。这个函数非常灵活,可以用于生成各种时间序列数据。

pandas.date_range(start=None, end=None, periods=None, freq=None, tz=None, normalize=False, name=None, closed=None, **kwargs)

参数:

①start:
    类型:字符串或日期时间对象,默认为 None。
    描述:起始日期时间。
②end:
    类型:字符串或日期时间对象,默认为 None。
    描述:结束日期时间。
③ periods:
    类型:整数,默认为 None。
    描述:生成的日期时间索引的数量。
④ freq:
    类型:字符串或日期偏移对象,默认为 None。
    描述:时间频率。常见的频率包括 'D'(天)、'H'(小时)、'T' 或 'min'(分钟)、'S'(秒)
⑤ tz:
    类型:字符串或时区对象,默认为 None。
    描述:指定时区。
⑥normalize:
    类型:布尔值,默认为 False。
    描述:是否将时间归一化到午夜。
⑦name:
    类型:字符串,默认为 None。
    描述:生成的日期时间索引的名称。
⑧closed:
    类型:字符串,默认为 None。
    描述:指定区间是否包含起始或结束日期时间。可选值为 'left'、'right' 或 None。

date_index=pd.date_range(start="2024-10-01",end="2024-10-10",freq="D")
print(date_index)

date_index=pd.date_range(start="2024-10-25",periods=5,freq="H")
print(date_index)

时间差

Timedelta 是一个用于表示时间间隔的对象。它可以表示两个时间点之间的差异,或者表示某个时间段的长度。Timedelta 对象可以用于时间序列分析、日期运算等场景。

# 使用字符串
td1 = pd.Timedelta("1 days 2 hours 3 minutes ")
print(td1)

# 使用参数
td2 = pd.Timedelta(days=1, hours=30, minutes=100)
print(td2)

# 使用单位
td3 = pd.Timedelta(1001, unit="minutes")
print(td3)

# 时刻加减时间差
td = pd.Timedelta(days=5, hours=10, minutes=35)
ts = pd.Timestamp("2024-10-25")
print(ts + td)

时间日期格式化

strftime 用于将日期时间对象转换为指定格式的字符串

strptime 用于将字符串解析为日期时间对象。

 

from datetime import datetime

date_obj = dt.datetime(2024, 10, 25, 16, 42, 59)
# 将日期时间对象转换为字符串
date_str = date_obj.strftime("%Y-%m-%d %H:%M:%S")
print(type(date_str))
print(date_str,'\n')

# 将字符串解析为日期时间对象
date_obj2 =datetime.strptime(date_str, "%Y-%m-%d %H:%M:%S")
print(type(date_obj2))
print(date_obj2,'\n')

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值