使用TensorFlow时需掌握的Pandas核心知识点

原创

于 2025-03-17 00:10:55 发布 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

方法：pd.read_csv()、pd.read_excel()、pd.read_json()。

import pandas as pd

# 读取CSV文件
data = pd.read_csv("dataset.csv")

# 读取Excel文件
excel_data = pd.read_excel("data.xlsx", sheet_name="Sheet1")

使用场景：加载结构化数据集（如CSV格式的房价数据、用户行为日志）。

方法：to_csv()、to_excel()。

# 保存处理后的数据到CSV
data.to_csv("processed_data.csv", index=False)

使用场景：存储预处理后的数据供后续训练使用。

方法：fillna()、dropna()。

# 用均值填充缺失值
data["age"].fillna(data["age"].mean(), inplace=True)

# 删除包含缺失值的行
data.dropna(subset=["income"], inplace=True)

使用场景：处理传感器数据中的噪声或用户填写表单时的遗漏字段。

方法：astype()、pd.to_numeric()。

# 将字符串转换为浮点数
data["price"] = pd.to_numeric(data["price"], errors="coerce")

# 转换为分类类型（减少内存占用）
data["category"] = data["category"].astype("category")

使用场景：统一数据类型以适配模型输入（如将文本标签转为数值）。

方法：布尔索引、query()。

# 筛选年龄大于30的记录
filtered_data = data[data["age"] > 30]

# 使用query筛选多条件
filtered = data.query("age > 30 & income > 5000")

使用场景：提取特定用户群体的行为数据用于分类模型。

方法：df[column]、rename()。

# 选择特定列
features = data[["age", "income", "education"]]

# 重命名列
data.rename(columns={
   
   "old_name": "new_name"}, inplace=True)

使用场景：提取特征列（如房价预测中的面积、房龄）或统一字段命名。

方法：pd.concat()、pd.merge()。

# 纵向合并（相同列结构）
combined = pd.concat([df1, df2], axis=0)

# 横向连接（类似SQL JOIN）
merged = pd.merge(df1, df2, on="user_id", how="inner")

使用场景：整合多个来源的数据（如用户基本信息表 + 行为日志表）。

方法：pd.to_datetime()、resample()。

# 将字符串转换为时间类型
data["timestamp"] = pd.to_datetime(data["timestamp"])

# 按周聚合销售额
weekly_sales = data.resample