使用TensorFlow时需掌握的Pandas核心知识点

使用TensorFlow时需掌握的Pandas核心知识点

一、数据读取与写入

读取常见格式数据

方法pd.read_csv()pd.read_excel()pd.read_json()

import pandas as pd

# 读取CSV文件
data = pd.read_csv("dataset.csv")

# 读取Excel文件
excel_data = pd.read_excel("data.xlsx", sheet_name="Sheet1")

使用场景:加载结构化数据集(如CSV格式的房价数据、用户行为日志)。

数据保存

方法to_csv()to_excel()

# 保存处理后的数据到CSV
data.to_csv("processed_data.csv", index=False)

使用场景:存储预处理后的数据供后续训练使用。

二、数据清洗与预处理

处理缺失值

方法fillna()dropna()

# 用均值填充缺失值
data["age"].fillna(data["age"].mean(), inplace=True)

# 删除包含缺失值的行
data.dropna(subset=["income"], inplace=True)

使用场景:处理传感器数据中的噪声或用户填写表单时的遗漏字段。

类型转换

方法astype()pd.to_numeric()

# 将字符串转换为浮点数
data["price"] = pd.to_numeric(data["price"], errors="coerce")

# 转换为分类类型(减少内存占用)
data["category"] = data["category"].astype("category")

使用场景:统一数据类型以适配模型输入(如将文本标签转为数值)。

三、数据筛选与操作

条件筛选

方法:布尔索引、query()

# 筛选年龄大于30的记录
filtered_data = data[data["age"] > 30]

# 使用query筛选多条件
filtered = data.query("age > 30 & income > 5000")

使用场景:提取特定用户群体的行为数据用于分类模型。

列操作与重命名

方法df[column]rename()

# 选择特定列
features = data[["age", "income", "education"]]

# 重命名列
data.rename(columns={
   
   "old_name": "new_name"}, inplace=True)

使用场景:提取特征列(如房价预测中的面积、房龄)或统一字段命名。

四、数据合并与连接

合并数据集

方法pd.concat()pd.merge()

# 纵向合并(相同列结构)
combined = pd.concat([df1, df2], axis=0)

# 横向连接(类似SQL JOIN)
merged = pd.merge(df1, df2, on="user_id", how="inner")

使用场景:整合多个来源的数据(如用户基本信息表 + 行为日志表)。

五、时间序列处理

日期解析与重采样

方法pd.to_datetime()resample()

# 将字符串转换为时间类型
data["timestamp"] = pd.to_datetime(data["timestamp"])

# 按周聚合销售额
weekly_sales = data.resample
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值