2小时入门Python：带你体验编程的乐趣（三）-优快云博客

本文链接：https://blog.youkuaiyun.com/RunMax2002/article/details/145455129

我们可以将Python的应用范围划分为更复杂的领域，例如绘图、数据处理、网络爬虫等。这样你不仅能了解Python的基础，还能将其应用于实际项目中的强大能力。接下来，我将分几部分介绍这些应用，逐步带你深入了解。

一、数据处理：Pandas库的使用

Python的Pandas库是数据处理领域中最常用的工具之一，尤其在数据分析和数据清理过程中非常强大。它可以帮助我们处理表格数据（如Excel、CSV等格式的数据），进行数据分析、统计计算等操作。

1.安装Pandas

首先，你需要安装pandas库。你可以通过以下命令安装：

pip install pandas

2.导入数据：读取CSV文件

import pandas as pd

# 读取CSV文件
data = pd.read_csv('data.csv')

# 查看前5行数据
print(data.head())

在实际应用中，数据往往存储在CSV、Excel等文件中，pandas提供了强大的读取和写入功能，支持多种格式。通过read_csv()方法，我们可以轻松导入数据，并使用head()方法查看数据的前几行。

3. 数据选择与过滤

假设我们有一个关于学生成绩的数据集，我们可以用来pandas进行筛选和分析。

# 筛选出成绩大于80分的学生
filtered_data = data[data['score'] > 80]

# 查看筛选后的数据
print(filtered_data)

你可以通过列名来选择具体的列，或者通过条件过滤来选择符合特定标准的行。

4. 数据统计与聚合

Pandas非常擅长数据的聚合与统计，能够帮助我们快速分析数据。

# 计算所有学生的平均成绩
average_score = data['score'].mean()
print("平均成绩：", average_score)

# 按照班级进行分组，并计算每个班级的平均成绩
grouped_data = data.groupby('class')['score'].mean()
print(grouped_data)

mean()计算工具，groupby()用于按列进行分组并进行聚合操作。

5. 数据清洗：处理转运值

数据清理是数据分析的重要部分。Pandas 为处理缺失值提供了丰富的工具。

# 检查缺失值
print(data.isnull().sum())

# 删除含有缺失值的行
cleaned_data = data.dropna()

# 填充缺失值
data_filled = data.fillna(0)

isnull()可以帮助您检查恢复值，dropna()会删除恢复值所在的行，fillna()可以用指定的值恢复恢复值。

二、绘图：Matplotlib与Seaborn

Python不仅能够进行数据处理，还能够进行非常强大的数据可视化。Matplotlib并且Seaborn是最常用的两个库，分别用于基础绘图和高级绘图。我们从简单的图表开始介绍。

1. 安装Matplotlib和Seaborn

pip install matplotlib seaborn

2. 简单绘图：Matplotlib

Matplotlib是Python最常用的绘图库，适用于创建各种基本的图表，如折线图、柱状图、散点图等。

import matplotlib.pyplot as plt

# 数据
x = [1, 2, 3, 4, 5]
y = [1, 4, 9, 16, 25]

# 绘制简单的折线图
plt.plot(x, y)
plt.title("简单折线图")
plt.xlabel("x轴")
plt.ylabel("y轴")
plt.show()

上面的代码介绍了一个简单的折线图，你可以通过plt.plot()来比较图形，plt.xlabel()并plt.ylabel()用于设置轴标签，plt.title()设置图表标题。

3. 柱状图

# 数据
categories = ['A', 'B', 'C', 'D', 'E']
values = [23, 45, 56, 78, 33]

# 绘制柱状图
plt.bar(categories, values)
plt.title("简单柱状图")
plt.xlabel("类别")
plt.ylabel("值")
plt.show()

柱状图适用于显示不同类别之间的比较。

4.散点图

# 数据
x = [1, 2, 3, 4, 5]
y = [5, 7, 8, 5, 4]

# 绘制散点图
plt.scatter(x, y)
plt.title("简单散点图")
plt.xlabel("x轴")
plt.ylabel("y轴")
plt.show()

散点图常用于显示两个变量之间的关系。

5. Seaborn高级绘图

Seaborn基于Matplotlib的高级绘图库，它提供了更加简洁和美观的接口。

import seaborn as sns

# 数据
tips = sns.load_dataset("tips")

# 绘制箱线图
sns.boxplot(x="day", y="total_bill", data=tips)
plt.title("箱线图示例")
plt.show()

Seaborn上面的load_dataset()代码提供了一些示例数据集。上面的代码相当于一个箱线图，它可以帮助我们观察不同天数中比尔的分配情况。

三、网络爬虫：BeautifulSoup与Requests

Python的BeautifulSoup和Requests库可以帮助我们进行网页数据的抓取和解析，构建网络爬虫。

1. 安装必要的库

pip install requests beautifulsoup4

2. 请求网页内容

Requests是一个非常好用的HTTP库，使用它我们可以轻松地发送GET请求，获取网页内容。

import requests

# 发送GET请求
url = "http://quotes.toscrape.com/"
response = requests.get(url)

# 获取网页内容
html_content = response.text
print(html_content)

3.解析网页内容：BeautifulSoup

BeautifulSoup可以帮助我们从HTML中提取出需要的信息。比如，我们想提取网页中的所有引用内容。(这部分内容最好有web前端代码的基础，不然理解起来可能略微有些难度)

from bs4 import BeautifulSoup

# 解析HTML内容
soup = BeautifulSoup(html_content, "html.parser")

# 获取所有的quote（引用）
quotes = soup.find_all("span", class_="text")

# 打印所有引用
for quote in quotes:
    print(quote.get_text())

find_all()方法可以根据标签和属性查找符合条件的所有元素，get_text()可以提取标签中的文本内容。

4. 处理请求中的错误

爬虫请求过程中，可能会遇到一些错误，比如网络中断、目标网页不存在等。使用try-except可以帮助我们捕获这些错误。

try:
    response = requests.get(url)
    response.raise_for_status()  # 如果响应码不是200，会抛出异常
except requests.exceptions.HTTPError as err:
    print(f"HTTP错误：{err}")
except requests.exceptions.RequestException as err:
    print(f"请求错误：{err}")
else:
    print("网页请求成功！")