Python 是数据科学与机器学习领域的首选语言之一,广泛应用于数据处理、分析、建模以及预测任务中。Python 拥有丰富的库和工具,能够帮助开发者高效处理数据,并构建各种机器学习模型。下面我们将详细介绍 Python 在数据科学与机器学习中的应用,从基础的数据处理、可视化到复杂的模型训练和预测。
一、Python 数据科学的核心库
在数据科学领域,Python 的三大核心库是 Pandas、NumPy 和 Matplotlib/Seaborn。它们用于数据的读取、处理、分析和可视化。
1.1 Pandas
Pandas 是用于数据处理和分析的最常用库,主要提供 DataFrame
和 Series
这两种数据结构,方便处理结构化数据(如表格、CSV 文件等)。
-
安装 Pandas:
pip install pandas
-
读取和处理数据:
import pandas as pd # 读取 CSV 文件 df = pd.read_csv('data.csv') # 查看数据的前几行 print(df.head()) # 数据筛选和过滤 filtered_data = df[df['age'] > 30] # 添加新列 df['new_column'] = df['salary'] * 0.1 # 缺失值处理 df.fillna(0, inplace=True) # 分组统计 grouped_data = df.groupby('department')['salary'].mean() print(grouped_data)
1.2 NumPy
NumPy 是用于数值计算的基础库,特别适合处理大规模的多维数组和矩阵运算。Pandas 数据处理的底层数据结构其实基于 NumPy。
-
安装 NumPy:
pip install numpy
-
基本数组操作:
import numpy as np # 创建数组 arr = np.array([1, 2, 3, 4]) # 生成 2D 矩阵 matrix = np.array([[1, 2], [3, 4]]) # 数组运算 arr_squared = arr ** 2 matrix_sum = matrix + 10 # 数组统计 mean_value = np.mean(arr) std_dev = np.std(arr) print(mean_value, std_dev)