人工智能训练师三级实操题第一部分数据处理

原创

已于 2025-07-25 14:10:54 修改 · 1.1k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #人工智能训练师

于 2025-07-20 15:52:28 首次发布

该文章已生成可运行项目，

数据处理全流程：从采集到可视化与保存

在数据分析与挖掘的工作中，数据处理是至关重要的环节，它直接影响后续分析结果的准确性和可靠性。本文将详细介绍数据处理的完整流程，包括数据采集与加载、清洗与预处理、标准化、分组统计、可视化以及保存，并结合 Python 代码实例展示各环节的具体操作。

一、数据采集与加载

数据采集是数据处理的第一步，我们通常会从各种数据源获取数据，其中 CSV 文件是一种常见的格式。Python 的pandas库提供了便捷的函数来加载 CSV 文件。

代码实例：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 生成模拟数据（实际场景中可替换为真实CSV文件路径）
data = {
    'ID': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'Age': [25, 30, None, 45, 50, 35, 60, 22, 70, 33, 150, 28],  # 包含缺失值和异常值
    'Income': [50000, 60000, 75000, None, 90000, 85000, 120000, 45000, 110000, 70000, 80000, 55000],  # 包含缺失值
    'Score': [85.5, 90.0, 78.5, 92.0, 88.0, 76.0, 89.5, 91.0, 82.0, 87.0, 95.0, 80.5],
    'Category': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B', 'A', 'B', 'A', 'B']
}
df = pd.DataFrame(data)
# 保存为CSV/Excel文件，模拟实际数据加载场景
df.to_csv('original_data.csv', index=False)
df.to_excel('example.xlsx', index=False)

# 从CSV/Excel文件加载数据
df = pd.read_csv('original_data.csv')
excel_data = pd.read_excel('example.xlsx')

# 查看数据前5行
print("数据前5行：")
print(df.head())

运行结果：

数据前5行：
   ID   Age   Income  Score Category
0   1  25.0  50000.0   85.5        A
1   2  30.0  60000.0   90.0        B
2   3   NaN  75000.0   78.5

本文章已经生成可运行项目

最低0.47元/天解锁文章