使用TensorFlow时需掌握的Pandas核心知识点
一、数据读取与写入
读取常见格式数据
方法:pd.read_csv()、pd.read_excel()、pd.read_json()。
import pandas as pd
# 读取CSV文件
data = pd.read_csv("dataset.csv")
# 读取Excel文件
excel_data = pd.read_excel("data.xlsx", sheet_name="Sheet1")
使用场景:加载结构化数据集(如CSV格式的房价数据、用户行为日志)。
数据保存
方法:to_csv()、to_excel()。
# 保存处理后的数据到CSV
data.to_csv("processed_data.csv", index=False)
使用场景:存储预处理后的数据供后续训练使用。
二、数据清洗与预处理
处理缺失值
方法:fillna()、dropna()。
# 用均值填充缺失值
data["age"].fillna(data["age"].mean(), inplace=True)
# 删除包含缺失值的行
data.dropna(subset=["income"], inplace=True)
使用场景:处理传感器数据中的噪声或用户填写表单时的遗漏字段。
类型转换
方法:astype()、pd.to_numeric()。
# 将字符串转换为浮点数
data["price"] = pd.to_numeric(data["price"], errors="coerce")
# 转换为分类类型(减少内存占用)
data["category"] = data["category"].astype("category")
使用场景:统一数据类型以适配模型输入(如将文本标签转为数值)。
三、数据筛选与操作
条件筛选
方法:布尔索引、query()。
# 筛选年龄大于30的记录
filtered_data = data[data["age"] > 30]
# 使用query筛选多条件
filtered = data.query("age > 30 & income > 5000")
使用场景:提取特定用户群体的行为数据用于分类模型。
列操作与重命名
方法:df[column]、rename()。
# 选择特定列
features = data[["age", "income", "education"]]
# 重命名列
data.rename(columns={
"old_name": "new_name"}, inplace=True)
使用场景:提取特征列(如房价预测中的面积、房龄)或统一字段命名。
四、数据合并与连接
合并数据集
方法:pd.concat()、pd.merge()。
# 纵向合并(相同列结构)
combined = pd.concat([df1, df2], axis=0)
# 横向连接(类似SQL JOIN)
merged = pd.merge(df1, df2, on="user_id", how="inner")
使用场景:整合多个来源的数据(如用户基本信息表 + 行为日志表)。
五、时间序列处理
日期解析与重采样
方法:pd.to_datetime()、resample()。
# 将字符串转换为时间类型
data["timestamp"] = pd.to_datetime(data["timestamp"])
# 按周聚合销售额
weekly_sales = data.resample

最低0.47元/天 解锁文章
1065

被折叠的 条评论
为什么被折叠?



