数据分析 — Pandas 数据处理

一、简介

1、概念

Pandas(Python Data Analysis Library)是一个基于 NumPy 的数据分析工具,专为解决数据分析任务而创建。它汇集了大量库和一些标准的数据模型,可以更高效地操作大型数据集。

2、特点

  • 数据结构: Pandas 提供了两种主要的数据结构,即 Series 和 DataFrame,用于处理一维和二维数据。
  • 标签化: 数据结构带有标签,可以通过标签进行轴向操作,提高了数据操作的灵活性。
  • 数据清洗: 提供了丰富的功能用于处理缺失值、重复项、异常值等,使数据更整洁。
  • 数据操作: 支持各种数据操作,包括合并、连接、分组、聚合等,满足多种数据分析需求。
  • 时间序列: 强大的时间序列处理功能,方便处理时间相关的数据。

3、引用

pip install pandas

import pandas as pd # 导入 Pandas 库并使用别名 pd

二、数据结构

1、Series

  • 基本属性

values:返回底层的 NumPy 数组,包含 Series 中的数据。

index:返回索引对象,提供标签信息,用于标识每个数据点。

dtype:返回数据的数据类型,表示 Series 中存储的元素类型。

shape:返回数据的形状,对于一维数据,返回的是单元素元组。

size:返回数据的元素个数,表示 Series 中包含的数据点的数量。

nbytes:返回数据的字节大小,即存储数据所需的字节数。

ndim:返回数据的维度,对于 Series 来说,始终为1。

name:返回或设置 Series 的名称,可以用于标识 Series 对象的用途或含义。

import pandas as pd  # 导入 Pandas 库并使用别名 pd

# 创建一个 Series 对象
s = pd.Series([1, 2, 3, 4, 5], name='my_series')

print(s.values)  # [1 2 3 4 5]
print(s.index)  # RangeIndex(start=0, stop=5, step=1)
print(s.dtype)  # int64
print(s.shape)  # (5,)
print(s.size)  # 5
print(s.nbytes)  # 40
print(s.ndim)  # 1
print(s.name)  # my_series
  • 创建
import pandas as pd  # 导入 Pandas 库并使用别名 pd
import numpy as np  # 导入 NumPy 库并使用别名 np

# 从列表创建 Series
s1 = pd.Series([1, 2, 3, 4, 5])
print(s1)
# 0    1
# 1    2
# 2    3
# 3    4
# 4    5
# dtype: int64

# 从字典创建 Series
s2 = pd.Series({
   
   'a': 1, 'b': 2, 'c': 3})
print(s2)
# a    1
# b    2
# c    3
# dtype: int64

# 从 Numpy 数组创建 Series
s3 = pd.Series(np.array([1, 2, 3, 4, 5]))
print(s3)
# 0    1
# 1    2
# 2    3
# 3    4
# 4    5
# dtype: int32

# 从字典和标签列表创建 Series
s4 = pd.Series({
   
   'a': 1, 'b': 2, 'c': 3}, index=['a', 'b', 'c'])
print(s4)
# a    1
# b    2
# c    3
# dtype: int64
  • 取值
import pandas as pd  # 导入 Pandas 库并使用别名 pd

# 创建一个 Series 对象
s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])

# 通过索引取值
value = s['b']
print(value)  # 2

# 通过切片取值
slice_values = s['a':'c']
print(slice_values)
# a    1
# b    2
# c    3
# dtype: int64

# 取第二行
row_value = s.iloc[1]
print(row_value)  # 2

2、DataFrame

  • 基本属性

values:返回底层的 NumPy 数组,包含 DataFrame 中的数据。

columns:返回列名,表示 DataFrame 中每列的标签。

index:返回索引对象,提供标签信息,用于标识每行数据。

shape:返回数据的形状,是一个元组,表示DataFrame的行数和列数。

dtypes:返回每列的数据类型,表示 DataFrame 中存储的元素类型。

size:返回数据的元素个数,表示 DataFrame 中包含的数据点的总数量。

import pandas as pd  # 导入 Pandas 库并使用别名 pd

# 创建一个 DataFrame 对象
data = {
   
   'name': ['Tom', 'Nick', 'John'], 'Age': [20, 21, 19]}
df = pd.DataFrame(data)

print(df.columns)  # Index(['name', 'Age'], dtype='object')

print(df.index)  # RangeIndex(start=0, stop=3, step=1)

print(df.values)
# [['Tom' 20]
#  ['Nick' 21]
#  ['John' 19]]

print(df.shape)  # (3, 2)

print(df.dtypes)
# name    object
# Age      int64
# dtype: object

print(df.size
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值