数据处理全流程:从采集到可视化与保存
在数据分析与挖掘的工作中,数据处理是至关重要的环节,它直接影响后续分析结果的准确性和可靠性。本文将详细介绍数据处理的完整流程,包括数据采集与加载、清洗与预处理、标准化、分组统计、可视化以及保存,并结合 Python 代码实例展示各环节的具体操作。
一、数据采集与加载
数据采集是数据处理的第一步,我们通常会从各种数据源获取数据,其中 CSV 文件是一种常见的格式。Python 的pandas库提供了便捷的函数来加载 CSV 文件。
代码实例:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# 生成模拟数据(实际场景中可替换为真实CSV文件路径)
data = {
'ID': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
'Age': [25, 30, None, 45, 50, 35, 60, 22, 70, 33, 150, 28], # 包含缺失值和异常值
'Income': [50000, 60000, 75000, None, 90000, 85000, 120000, 45000, 110000, 70000, 80000, 55000], # 包含缺失值
'Score': [85.5, 90.0, 78.5, 92.0, 88.0, 76.0, 89.5, 91.0, 82.0, 87.0, 95.0, 80.5],
'Category': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B', 'A', 'B', 'A', 'B']
}
df = pd.DataFrame(data)
# 保存为CSV/Excel文件,模拟实际数据加载场景
df.to_csv('original_data.csv', index=False)
df.to_excel('example.xlsx', index=False)
# 从CSV/Excel文件加载数据
df = pd.read_csv('original_data.csv')
excel_data = pd.read_excel('example.xlsx')
# 查看数据前5行
print("数据前5行:")
print(df.head())
运行结果:
数据前5行:
ID Age Income Score Category
0 1 25.0 50000.0 85.5 A
1 2 30.0 60000.0 90.0 B
2 3 NaN 75000.0 78.5

最低0.47元/天 解锁文章
456

被折叠的 条评论
为什么被折叠?



