Day2：高效数据处理与科学计算：Numpy与Pandas的黄金组合

本文链接：https://blog.youkuaiyun.com/weixin_45312538/article/details/146446480

在数据科学和机器学习领域，Python 生态系统中最闪耀的两颗明星当属 Numpy 和 Pandas。它们分别专注于高性能数值计算和结构化数据处理，构成了现代数据分析的基石。本文将深入解析它们的核心功能，并通过实际案例演示如何实现二者的完美配合。

一、Numpy：科学计算的基石

1. 多维数组对象

Numpy 的核心是 ndarray 多维数组对象，支持矢量化运算，比传统Python列表快数十倍：

import numpy as np

arr = np.array([[1, 2, 3], [4, 5, 6]])  # 创建2x3矩阵
print(arr.shape)  # 输出：(2, 3)

2. 矩阵运算的核心操作

操作类型	示例代码	应用场景
矩阵乘法	np.dot(A, B) 或 A @ B	神经网络前向传播
转置	arr.T	数据维度转换
按轴求和	np.sum(arr, axis=0)	统计每列总和
广播机制	arr * 3	元素级快速运算

3. 高级功能揭秘

# 条件过滤
mask = arr > 3
print(arr[mask])  # 输出：[4 5 6]

# 随机矩阵生成
random_matrix = np.random.randn(3,3)  # 3x3正态分布矩阵

# 线性代数运算
eigenvalues = np.linalg.eigvals(random_matrix)

二、Pandas：数据处理的瑞士军刀

1. 核心数据结构

import pandas as pd

# 创建DataFrame
data = {'产品': ['A', 'B', 'C'], '销量': [120, 310, 95]}
df = pd.DataFrame(data)

2. 数据处理的六脉神剑

# 1.数据清洗
df.dropna()  # 删除缺失值
df.fillna(0)  # 填充空值
df.replace(-999, np.nan)  # 异常值处理

# 2.高效过滤
high_sales = df[df['销量'] > 200]  # 筛选高销量产品

# 3.分组聚合
category_stats = df.groupby('类别')['销售额'].agg(['mean', 'max'])

# 4.时间序列处理
df['日期'] = pd.to_datetime(df['日期'])
df.set_index('日期').resample('M').sum()  # 按月汇总

# 5.数据合并
pd.merge(sales_df, product_info, on='产品ID')

# 6.内存优化
df['销量'] = df['销量'].astype('int32')  # 类型转换节省内存

三、双剑合璧实战：销售数据分析

1. 数据准备

sales = pd.DataFrame({
    '日期': pd.date_range('2023-01-01', periods=5),
    '产品A': [120, 135, 90, 150, 80],
    '产品B': [80, 92, 110, 85, 103]
})

2. 协同处理流程

# 转换为Numpy矩阵
matrix = sales[['产品A', '产品B']].values

# 矩阵运算：计算每日总销售额
total_sales = np.sum(matrix, axis=1)

# 将结果合并回DataFrame
sales['总销售额'] = total_sales

# 计算7日移动平均（Pandas专属）
sales['MA7'] = sales['总销售额'].rolling(window=2).mean()

# 性能对比：矢量化 vs 循环
%timeit np.sum(matrix, axis=1)          # 约2μs
%timeit [row[0]+row[1] for row in matrix]  # 约15μs

四、性能优化秘籍

矢量化优先原则
- 避免使用循环，尽量使用内置函数
- 矩阵运算比逐元素操作快100倍
内存管理技巧
- 使用astype降低数据精度
- 选择float32代替float64

混合编程策略

# 使用Numpy加速Pandas运算
df['新列'] = df['数值列'].values * 0.8 + 5

五、应用场景全景

领域	典型应用	关键技术
机器学习	特征工程、数据标准化	np.log1p ， pd.get_dummies
金融分析	投资组合优化、风险计算	协方差矩阵计算、蒙特卡洛模拟
物联网	传感器数据处理	滑动窗口统计、异常检测
生物信息学	基因序列分析	大型矩阵运算、数据降维

六、学习路径建议

基础精通
- 掌握Numpy数组创建和变形
- 熟练使用Pandas进行数据清洗
进阶提升
- 学习广播机制和视图原理
- 掌握分层索引和多维合并

大师之路

# 自定义矢量化函数
@np.vectorize
def custom_calc(x):
    return x*2 if x < 100 else x*1.5

# 内存映射大文件
large_array = np.memmap('bigdata.bin', dtype='float32', mode='r', shape=(10000,10000))