数据分析 — Pandas 数据处理

一、简介

1、概念

Pandas(Python Data Analysis Library)是一个基于 NumPy 的数据分析工具,专为解决数据分析任务而创建。它汇集了大量库和一些标准的数据模型,可以更高效地操作大型数据集。

2、特点

  • 数据结构: Pandas 提供了两种主要的数据结构,即 Series 和 DataFrame,用于处理一维和二维数据。
  • 标签化: 数据结构带有标签,可以通过标签进行轴向操作,提高了数据操作的灵活性。
  • 数据清洗: 提供了丰富的功能用于处理缺失值、重复项、异常值等,使数据更整洁。
  • 数据操作: 支持各种数据操作,包括合并、连接、分组、聚合等,满足多种数据分析需求。
  • 时间序列: 强大的时间序列处理功能,方便处理时间相关的数据。

3、引用

pip install pandas

import pandas as pd # 导入 Pandas 库并使用别名 pd

二、数据结构

1、Series

  • 基本属性

values:返回底层的 NumPy 数组,包含 Series 中的数据。

index:返回索引对象,提供标签信息,用于标识每个数据点。

dtype:返回数据的数据类型,表示 Series 中存储的元素类型。

shape:返回数据的形状,对于一维数据,返回的是单元素元组。

size:返回数据的元素个数,表示 Series 中包含的数据点的数量。

nbytes:返回数据的字节大小,即存储数据所需的字节数。

ndim:返回数据的维度,对于 Series 来说,始终为1。

name:返回或设置 Series 的名称,可以用于标识 Series 对象的用途或含义。

import pandas as pd  # 导入 Pandas 库并使用别名 pd

# 创建一个 Series 对象
s = pd.Series([1, 2, 3, 4, 5], name='my_series')

print(s.values)  # [1 2 3 4 5]
print(s.index)  # RangeIndex(start=0, stop=5, step=1)
print(s.dtype)  # int64
print(s.shape)  # (5,)
print(s.size)  # 5
print(s.nbytes)  # 40
print(s.ndim)  # 1
print(s.name)  # my_series
  • 创建
import pandas as pd  # 导入 Pandas 库并使用别名 pd
import numpy as np  # 导入 NumPy 库并使用别名 np

# 从列表创建 Series
s1 = pd.Series([1, 2, 3, 4, 5])
print(s1)
# 0    1
# 1    2
# 2    3
# 3    4
# 4    5
# dtype: int64

# 从字典创建 Series
s2 = pd.Series({
   
   'a': 1, 'b': 2, 'c': 3})
print(s2)
# a    1
# b    2
# c    3
# dtype: int64

# 从 Numpy 数组创建 Series
s3 = pd.Series(np.array([1, 2, 3, 4, 5]))
print(s3)
# 0    1
# 1    2
# 2    3
# 3    4
# 4    5
# dtype: int32

# 从字典和标签列表创建 Series
s4 = pd.Series({
   
   'a': 1, 'b': 2, 'c': 3}, index=['a', 'b', 'c'])
print(s4)
# a    1
# b    2
# c    3
# dtype: int64
  • 取值
import pandas as pd  # 导入 Pandas 库并使用别名 pd

# 创建一个 Series 对象
s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])

# 通过索引取值
value = s['b']
print(value)  # 2

# 通过切片取值
slice_values = s['a':'c']
print(slice_values)
# a    1
# b    2
# c    3
# dtype: int64

# 取第二行
row_value = s.iloc[1]
print(row_value)  # 2

2、DataFrame

  • 基本属性

values:返回底层的 NumPy 数组,包含 DataFrame 中的数据。

columns:返回列名,表示 DataFrame 中每列的标签。

index:返回索引对象,提供标签信息,用于标识每行数据。

shape:返回数据的形状,是一个元组,表示DataFrame的行数和列数。

dtypes:返回每列的数据类型,表示 DataFrame 中存储的元素类型。

size:返回数据的元素个数,表示 DataFrame 中包含的数据点的总数量。

import pandas as pd  # 导入 Pandas 库并使用别名 pd

# 创建一个 DataFrame 对象
data = {
   
   'name': ['Tom', 'Nick', 'John'], 'Age': [20, 21, 19]}
df = pd.DataFrame(data)

print(df.columns)  # Index(['name', 'Age'], dtype='object')

print(df.index)  # RangeIndex(start=0, stop=3, step=1)

print(df.values)
# [['Tom' 20]
#  ['Nick' 21]
#  ['John' 19]]

print(df.shape)  # (3, 2)

print(df.dtypes)
# name    object
# Age      int64
# dtype: object

print(df.size
内容概要:本文档《Pandas使用教程.pdf》详细介绍了Pandas这一Python核心数据分析库的使用方法,涵盖从基础入门到高级应用的各个方面。首先,文档解释了Pandas的基本概念及其核心数据结构(Series和DataFrame),随后深入讲解了数据加载与输出的方法,包括CSV、Excel和JSON格式的读写。接着,文档重点介绍了数据清洗的核心技巧,如缺失值处理、数据去重和类型转换等。此外,还涉及了数据的选择与过滤、操作与转换,包括列操作、数据合并和分组聚合等内容。高级功能部分则涵盖了时间序列处理、文本处理和数据可视化集成。最后,文档通过一个电商数据分析的实战案例,展示了如何应用Pandas进行复杂的数据分析任务,并提供了性能优化技巧。 适合人群:具备一定编程基础,特别是对Python有一定了解的数据分析师、数据科学家以及相关领域的从业人员。 使用场景及目标:①帮助读者掌握Pandas的基础和高级功能,提升数据处理效率;②通过实际案例学习如何运用Pandas进行数据清洗、转换和分析;③为从事数据分析、数据挖掘等工作的人员提供实用的操作指南和技术支持。 其他说明:文档不仅提供了详细的理论讲解,还配有丰富的代码示例,便于读者理解和实践。同时,推荐了一些学习资源,如官方文档、实战书籍和在线练习平台,帮助读者进一步深化对Pandas的理解和应用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值