Python常用库全解析:从数据处理到机器学习

适合人群:Python初学者 | 数据分析师 | 机器学习爱好者

目录

一、NumPy:科学计算的核心库

1. 核心功能

2. 应用领域

3. 常用方法示例

二、Pandas:数据分析的瑞士军刀

1. 核心功能

2. 应用领域

3. 常用方法示例

三、Matplotlib:数据可视化的基石

1. 核心功能

2. 应用领域

3. 常用方法示例

四、Requests:HTTP请求的利器

1. 核心功能

2. 应用领域

3. 常用方法示例

五、Scikit-learn:机器学习的入口

1. 核心功能

2. 应用领域

3. 常用方法示例

六、扩展学习推荐


一、NumPy:科学计算的核心库

1. 核心功能
  • 多维数组(ndarray):高效存储和操作大型数值数据

  • 数学函数:支持线性代数、傅里叶变换、随机数生成

  • 广播机制:不同形状数组间的运算自动化处理

2. 应用领域
  • 机器学习:TensorFlow/PyTorch底层依赖NumPy

  • 图像处理:OpenCV图像数据存储

  • 金融分析:股票收益率计算、风险评估

3. 常用方法示例
import numpy as np  

# 创建数组  
arr = np.array([[1, 2, 3], [4, 5, 6]])  # 2行3列矩阵  
print("数组形状:", arr.shape)  # 输出 (2, 3)  

# 矩阵运算  
a = np.array([[1, 2], [3, 4]])  
b = np.array([[5, 6], [7, 8]])  
print("矩阵乘法:\n", a @ b)  # 输出 [[19 22], [43 50]]  

# 广播机制  
arr = np.array([1, 2, 3])  
print("每个元素加5:", arr + 5)  # 输出 [6 7 8]  

二、Pandas:数据分析的瑞士军刀

1. 核心功能
  • DataFrame:二维表格型数据结构(类似Excel表格)

  • 数据清洗:处理缺失值、去重、合并数据集

  • 时间序列:支持日期范围生成、重采样

2. 应用领域
  • 数据清洗:预处理CSV/Excel文件

  • 商业分析:销售数据统计、用户行为分析

  • 金融建模:股票价格时间序列分析

3. 常用方法示例
import pandas as pd  

# 读取CSV文件  
df = pd.read_csv("sales.csv")  

# 数据筛选  
high_sales = df[df["销售额"] > 10000]  # 筛选销售额过万的记录  

# 分组聚合  
result = df.groupby("地区")["销售额"].agg(["sum", "mean"])  
print("地区销售统计:\n", result)  

# 处理缺失值  
df["折扣率"].fillna(0, inplace=True)  # 用0填充空值  

三、Matplotlib:数据可视化的基石

1. 核心功能
  • 2D绘图:折线图、柱状图、散点图、饼图

  • 样式定制:调整颜色、线型、标签、图例

  • 多子图布局:在单个画布上创建多个图表

2. 应用领域
  • 学术论文:实验结果可视化

  • 商业报告:销售趋势图表

  • 实时监控:服务器负载动态曲线

3. 常用方法示例
import matplotlib.pyplot as plt  

# 绘制折线图  
x = [1, 2, 3, 4, 5]  
y = [2, 4, 1, 6, 3]  
plt.plot(x, y, label="趋势线", color="red", linestyle="--")  
plt.xlabel("X轴")  
plt.ylabel("Y轴")  
plt.title("示例折线图")  
plt.legend()  
plt.show()  

# 绘制柱状图  
labels = ["A", "B", "C"]  
values = [25, 40, 30]  
plt.bar(labels, values, color=["#FF9999", "#66B2FF", "#99FF99"])  
plt.savefig("bar_chart.png")  # 保存为图片  

四、Requests:HTTP请求的利器

1. 核心功能
  • 发送HTTP请求:GET/POST/PUT/DELETE

  • 会话保持:自动处理Cookies

  • SSL验证:支持HTTPS请求

2. 应用领域
  • 爬虫开发:抓取网页数据

  • API调用:对接微信/支付宝支付接口

  • 自动化测试:验证服务端接口功能

3. 常用方法示例
import requests  

# GET请求示例  
response = requests.get(  
    "https://api.example.com/data",  
    params={"page": 1, "limit": 10},  # 查询参数  
    headers={"User-Agent": "Mozilla/5.0"}  # 伪装浏览器  
)  
print("状态码:", response.status_code)  
print("响应内容:", response.json())  # 解析JSON数据  

# POST请求示例  
data = {"username": "admin", "password": "123456"}  
response = requests.post("https://api.example.com/login", json=data)  

五、Scikit-learn:机器学习的入口

1. 核心功能
  • 分类算法:支持向量机(SVM)、随机森林

  • 回归模型:线性回归、岭回归

  • 数据预处理:标准化、归一化、缺失值填充

2. 应用领域
  • 金融风控:信用评分模型

  • 医疗诊断:疾病预测

  • 推荐系统:用户兴趣预测

3. 常用方法示例
from sklearn.datasets import load_iris  
from sklearn.model_selection import train_test_split  
from sklearn.ensemble import RandomForestClassifier  

# 加载鸢尾花数据集  
iris = load_iris()  
X, y = iris.data, iris.target  

# 划分训练集和测试集  
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)  

# 训练随机森林模型  
model = RandomForestClassifier(n_estimators=100)  
model.fit(X_train, y_train)  

# 评估准确率  
print("测试集准确率:", model.score(X_test, y_test))  

六、扩展学习推荐

  1. 深度学习

    • TensorFlow:谷歌开发的端到端机器学习平台

    • PyTorch:动态计算图,适合学术研究

  2. Web开发

    • Django:全功能Web框架

    • Flask:轻量级API服务框架

  3. 自动化测试

    • Selenium:浏览器自动化测试

    • Pytest:单元测试框架

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值