训练数据清洗(文本/音频/视频)

Psycho_MrZhang

于 2025-04-09 13:53:48 发布

阅读量956

点赞数 28

分类专栏：工具文章标签：音视频

本文链接：https://blog.youkuaiyun.com/weixin_44714085/article/details/147092264

版权

工具专栏收录该内容

8 篇文章

订阅专栏

多数据格式的清洗方法

以下是针对多数据格式清洗方法的系统性总结，结合Python代码示例：

一、数据清洗方法总览（表格对比）

数据类型	核心挑战	关键步骤	常用Python工具
文本	非结构化噪声	去噪→分词→标准化→向量化	NLTK, SpaCy, Jieba, Regex
图片	维度/质量差异	尺寸统一→去噪→格式转换→归一化	OpenCV, PIL, scikit-image
音频	采样/环境噪声差异	降噪→重采样→分割→特征提取	Librosa, pydub, noisereduce
视频	时空维度复杂性	关键帧提取→分辨率统一→时序处理	OpenCV, MoviePy, FFmpeg

二、文本数据清洗

1. 去噪处理

import re
from bs4 import BeautifulSoup

# 去除HTML标签
def clean_html(text):
    return BeautifulSoup(text, 'html.parser').get_text()

# 删除特殊字符
text = re.sub(r'[^a-zA-Z0-9\u4e00-\u9fa5]', ' ', "Hello! 这是一条带@符号的示例#文本")

2. 分词与标准化

import jieba
from nltk.tokenize import word_tokenize

# 中文分词
text_cn = "自然语言处理很重要"
seg_list = jieba.lcut(text_cn)  # ['自然语言', '处理', '很', '重要']

# 英文分词
text_en = "This is an example sentence."
tokens = word_tokenize(text_en.lower())  # ['this', 'is', 'an', 'example', 'sentence']

3. 停用词过滤

from nltk.corpus import stopwords

stop_words = set(stopwords.words('english'))
filtered_tokens = [word for word in tokens if word not in stop_words]  # 过滤后：['example', 'sentence']

三、图片数据清洗

1. 尺寸统一化

import cv2

img = cv2.imread('input.jpg')
resized_img = cv2.resize(img, (224, 224))  # 调整为指定尺寸

2. 去噪增强

# 高斯模糊去噪
blurred = cv2.GaussianBlur(img, (5,5), 0)

# 直方图均衡化（灰度图）
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
equalized = cv2.equalizeHist(gray)

3. 格式转换与归一化

from PIL import Image

# 转换格式并保存
img_pil = Image.open('input.bmp')
img_pil.save('output.jpg', quality=95)

# 归一化处理
import numpy as np
normalized = img.astype(np.float32) / 255.0  # [0,1]范围

四、音频数据清洗

1. 降噪处理

import noisereduce as nr
import librosa

y, sr = librosa.load('noisy_audio.wav')
# 提取噪声片段（需提前标记噪声区间）
noisy_part = y[5000:15000]  
cleaned = nr.reduce_noise(y=y, sr=sr, y_noise=noisy_part)

2. 采样率统一

# 从44.1kHz重采样到16kHz
y_16k = librosa.resample(y, orig_sr=44100, target_sr=16000)

3. 静音分割

from pydub import AudioSegment
from pydub.silence import split_on_silence

audio = AudioSegment.from_wav("long_audio.wav")
# 分割静音段（阈值-50dB，最小静音时长1s）
chunks = split_on_silence(audio, silence_thresh=-50, min_silence_len=1000)

五、视频数据清洗

1. 关键帧提取

cap = cv2.VideoCapture('input.mp4')
frame_count = 0
while True:
    ret, frame = cap.read()
    if not ret: break
    if frame_count % 30 == 0:  # 每30帧保存1帧
        cv2.imwrite(f"frame_{frame_count}.jpg", frame)
    frame_count += 1

2. 分辨率调整

from moviepy.editor import VideoFileClip

clip = VideoFileClip("input.mp4")
# 调整为720p并保持宽高比
clip_resized = clip.resize(height=720)  
clip_resized.write_videofile("output_720p.mp4")

3. 时间轴处理

# 截取10-20秒片段
sub_clip = clip.subclip(10, 20)

# 倍速处理（1.5倍速）
speed_clip = clip.fx(vfx.speedx, 1.5)

六、通用最佳实践

批处理模板

# 图片批处理示例
import os
from tqdm import tqdm

input_dir = 'raw_images/'
output_dir = 'processed_images/'
os.makedirs(output_dir, exist_ok=True)

for filename in tqdm(os.listdir(input_dir)):
    img = cv2.imread(os.path.join(input_dir, filename))
    processed = cv2.resize(cv2.GaussianBlur(img, (3,3), 0), (256,256))
    cv2.imwrite(os.path.join(output_dir, filename), processed)

质量校验

# 音频时长校验
import soundfile as sf

def validate_audio(path, min_duration=1.0):
    try:
        duration = len(sf.read(path)[0]) / sf.read(path)[1]
        return duration >= min_duration
    except:
        return False

分布式清洗（Dask示例）

import dask.dataframe as dd

# 并行处理文本数据
ddf = dd.read_csv('large_text_data/*.csv')
ddf_clean = ddf.map_partitions(lambda df: df.apply(clean_text_function))
ddf_clean.to_csv('cleaned_data/')

通过结合领域特定的清洗方法和Python生态工具，可以构建高效的数据预处理流水线。建议根据实际数据特点调整参数阈值，并建立自动化质量监控机制。

不同业务场景下的清洗策略

以下是针对不同业务场景下的数据清洗策略系统性总结，结合Python实现示例：

一、数据清洗策略总览（表格对比）

业务领域	核心挑战	典型清洗操作	常用Python工具
金融	数据可靠性/合规性	异常值检测、时序对齐、缺失值填充	Pandas, Scikit-learn, PyOD
医疗	隐私保护/数据标准化	数据脱敏、单位统一、格式验证	Faker, OpenPyXL, PyUnits
电商	数据一致性/商品归一化	重复数据删除、分类标准化	Dedupe, FuzzyWuzzy, Scikit-learn
社交媒体	非结构化数据处理	文本清洗、行为序列过滤	NLTK, SpaCy, Pandas

二、金融领域清洗策略

1. 异常值检测

场景：检测信用卡欺诈交易

方法：

# IQR方法检测交易金额异常
Q1 = df['amount'].quantile(0.25)
Q3 = df['amount'].quantile(0.75)
IQR = Q3 - Q1
df_clean = df[~((df['amount'] < (Q1 - 1.5*IQR)) | (df['amount'] > (Q3 + 1.5*IQR)))]

# Z-score检测
from scipy import stats
df['z_score'] = stats.zscore(df['amount'])
df_clean = df[df['z_score'].abs() < 3]

2. 缺失值填充

场景：股票价格数据补全

方法：

# 时间序列前向填充
df.fillna(method='ffill', inplace=True)

# 使用随机森林预测缺失值
from sklearn.ensemble import RandomForestRegressor
X = df.dropna().drop('target', axis=1)
y = df.dropna()['target']
model = RandomForestRegressor().fit(X, y)
missing_data = df[df['target'].isnull()].drop('target', axis=1)
df.loc[df['target'].isnull(), 'target'] = model.predict(missing_data)

三、医疗领域清洗策略

1. 数据脱敏

场景：患者隐私保护

方法：

# 使用假名生成库
from faker import Faker
fake = Faker()
df['patient_name'] = [fake.name() for _ in range(len(df))]

# 日期偏移脱敏
df['birth_date'] = pd.to_datetime(df['birth_date']) + pd.DateOffset(years=10)

2. 单位统一

场景：多源医疗设备数据整合

方法：

# 体重单位标准化（磅转千克）
def convert_weight(row):
    if row['unit'] == 'lbs':
        return row['value'] * 0.453592
    else:
        return row['value']
df['weight_kg'] = df.apply(convert_weight, axis=1)

# 使用Pint进行单位转换
import pint
ureg = pint.UnitRegistry()
df['volume'] = df['value'].apply(lambda x: (x * ureg.parse_expression(df['unit'])).to(ureg.milliliter))

四、电商领域清洗策略

1. 重复数据去重

场景：商品列表清洗

方法：

# 基于规则去重
df.drop_duplicates(subset=['product_id', 'price'], keep='last', inplace=True)

# 使用模糊匹配处理标题相似项
from fuzzywuzzy import fuzz
def is_similar(str1, str2, threshold=90):
    return fuzz.token_set_ratio(str1, str2) > threshold

2. 分类标准化

场景：多平台商品类目映射

方法：

# 创建类目映射字典
category_map = {
    'cellphone': 'Mobile Devices',
    'smartphone': 'Mobile Devices',
    'laptop': 'Computers'
}
df['category'] = df['raw_category'].map(category_map).fillna('Others')

# 使用聚类自动分类
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=10).fit(tfidf_vectors)
df['auto_category'] = kmeans.labels_

五、社交媒体清洗策略

1. 文本规范化

场景：情感分析预处理

方法：

# 情感符号处理
import re
def clean_emoji(text):
    emoji_pattern = re.compile("["
        u"\U0001F600-\U0001F64F"  # emoticons
        u"\U0001F300-\U0001F5FF"  # symbols & pictographs
        "]+", flags=re.UNICODE)
    return emoji_pattern.sub(r'', text)

# 词形还原
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
df['text'] = df['text'].apply(lambda x: ' '.join([lemmatizer.lemmatize(word) for word in x.split()]))

2. 用户行为过滤

场景：僵尸账号检测

方法：

# 时间窗口内异常操作检测
df['action_time'] = pd.to_datetime(df['timestamp'])
df = df.set_index('action_time')
actions_per_min = df.resample('1T').size()
anomaly_users = actions_per_min[actions_per_min > 100].index

# 基于规则过滤
spam_keywords = ['free', 'win', 'click']
df = df[~df['content'].str.contains('|'.join(spam_keywords), case=False)]

六、最佳实践建议

业务适配原则：
- 金融领域优先保证数据完整性
- 医疗领域强制实施隐私保护
- 电商领域侧重商品特征一致性
- 社交媒体关注上下文关联性

工具链推荐：

# 通用数据操作
import pandas as pd  
import numpy as np

# 高级清洗工具
from sklearn.impute import IterativeImputer  # 多重插补
import great_expectations as ge  # 数据质量验证

# 可视化监控
import matplotlib.pyplot as plt
df.hist(column='transaction_amount', bins=50)  # 分布可视化

流程标准化：

# 构建清洗Pipeline示例
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer

preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numerical_features),
        ('text', TfidfVectorizer(), text_column)
    ])

pipeline = Pipeline(steps=[
    ('clean', DataCleaner()),  # 自定义清洗类
    ('preprocess', preprocessor)
])

通过针对不同业务场景的特征设计清洗策略，配合Python生态丰富的工具库，可以显著提升数据质量。建议根据实际业务需求动态调整清洗阈值和规则，并建立持续的质量监控机制。

文本专项

数据清洗是数据预处理中的重要步骤，旨在提高数据质量，确保后续分析或建模的准确性。针对训练数据集的数据清洗方案通常包括以下几个方面：

缺失值处理

缺失值是数据集中常见的问题，需要根据具体情况选择合适的处理方法：

删除法：如果缺失值比例较高（如超过50%），可以直接删除该特征或样本。

# 删除缺失率超过50%的特征
threshold = len(df) * 0.5
df_cleaned = df.dropna(thresh=threshold, axis=1)

# 删除有缺失值的行
df_dropped = df.dropna()

填充法：
- 使用统计值填充：均值、中位数、众数等。
- 使用插值法：线性插值或其他插值方法。
- 使用模型预测：通过其他特征训练一个简单的回归/分类模型来预测缺失值。

# 均值填充
df_filled = df.fillna(df.mean())

# 使用KNN插值（需安装scikit-learn）
imputer = KNNImputer(n_neighbors=5)
df_knn = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)

# 时间序列线性插值
df['timestamp'] = pd.to_datetime(df['timestamp'])
df = df.set_index('timestamp')
df_interpolated = df.interpolate(method='time')

标记法：将缺失值作为一个单独的类别或特殊值进行标记。

# 创建缺失指示特征
for col in df.columns:
    df[f'{col}_missing'] = df[col].isnull().astype(int)

异常值处理

异常值可能由数据录入错误或实际极端值引起，需谨慎处理：

识别异常值：
- 基于统计学方法：如3σ原则（正态分布）、箱线图（IQR）。

# 3σ原则

def sigma_rule(df, col, n_sigmas=3):
    mean = df[col].mean()
    std = df[col].std()
    return df[(df[col] > mean - n_sigmas*std) & (df[col] < mean + n_sigmas*std)]

df_clean = sigma_rule(df, 'income')

# 箱线图

Q1 = df['age'].quantile(0.25)
Q3 = df['age'].quantile(0.75)
IQR = Q3 - Q1
df = df[~((df['age'] < (Q1 - 1.5*IQR)) | (df['age'] > (Q3 + 1.5*IQR)))]

基于可视化：散点图、直方图等。
基于机器学习：使用孤立森林（Isolation Forest）、DBSCAN等算法检测异常值。

# 使用孤立森林检测异常
iso = IsolationForest(contamination=0.05)
outliers = iso.fit_predict(df[['feature1', 'feature2']])
df_clean = df[outliers == 1]

处理方式：
- 删除异常值。
- 替换为合理值（如均值、中位数）。
- 根据业务逻辑调整异常值。

重复数据处理

重复数据可能会导致模型过拟合或偏差：

检查并删除完全重复的样本。
对部分字段重复的数据进行合并或去重。

# 完全重复记录删除
df_deduplicated = df.drop_duplicates()

# 关键字段重复处理
df = df.sort_values('update_time').drop_duplicates(['user_id'], keep='last')

数据格式统一化

数据格式不一致可能导致分析错误：

日期格式：统一日期格式（如YYYY-MM-DD）。
数值格式：确保数值类型正确（如浮点数、整数）。
文本格式：统一大小写、去除多余空格、标准化编码（如UTF-8）。

# 统一日期格式
df['date'] = pd.to_datetime(df['date'], errors='coerce', format='%Y-%m-%d')

# 提取时间特征
df['year'] = df['date'].dt.year
df['day_of_week'] = df['date'].dt.dayofweek

# 标准化文本
def clean_text(text):
    text = re.sub(r'\s+', ' ', text)          # 去除多余空格
    text = re.sub(r'[^\w\s]', '', text)       # 移除标点
    return text.strip().lower()

df['text'] = df['text'].apply(clean_text)

特征标准化与归一化

某些算法对特征的量纲敏感，需进行标准化或归一化：

标准化：将数据转换为均值为0、标准差为1的分布（Z-score标准化）。
归一化：将数据缩放到固定范围（如[0, 1]或[-1, 1]）。
Log变换：对偏态分布的数据进行对数变换以减小偏度。

# Z-score标准化
scaler = StandardScaler()
df[['income', 'age']] = scaler.fit_transform(df[['income', 'age']])

# Min-Max归一化
minmax = MinMaxScaler(feature_range=(0, 1))
df[['height', 'weight']] = minmax.fit_transform(df[['height', 'weight']])

# 对数变换
df['income_log'] = np.log1p(df['income'])

类别不平衡处理

对于分类问题，类别不平衡会影响模型性能：

欠采样：减少多数类样本数量。
过采样：增加少数类样本数量（如SMOTE算法）。
调整权重：在模型训练时为不同类别设置不同的权重。

# SMOTE过采样（需安装imbalanced-learn）
from imblearn.over_sampling import SMOTE

X_resampled, y_resampled = SMOTE().fit_resample(X, y)

# 类别权重调整
from sklearn.utils.class_weight import compute_class_weight
class_weights = compute_class_weight('balanced', classes=np.unique(y), y=y)

文本数据清洗

如果数据集中包含文本数据，需要进行以下处理：

去除噪声：删除HTML标签、特殊字符、停用词等。
分词与词干提取：对文本进行分词，并提取词干或词形还原。
拼写纠正：修正拼写错误。
向量化：将文本转换为数值形式（如TF-IDF、词嵌入）。

from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer

# 高级文本清洗
def advanced_text_clean(text):
    # 拼写纠正（需安装pyspellchecker）
    from spellchecker import SpellChecker
    spell = SpellChecker()
    words = [spell.correction(word) for word in text.split()]
    
    # 词形还原
    from nltk.stem import WordNetLemmatizer
    lemmatizer = WordNetLemmatizer()
    return ' '.join([lemmatizer.lemmatize(word) for word in words if word not in stop_words])

# TF-IDF向量化
tfidf = TfidfVectorizer(max_features=500)
X_tfidf = tfidf.fit_transform(df['text'])

特征工程与降维

特征选择：移除无关或冗余特征。
特征构造：基于现有特征生成新的有意义特征。
降维：使用PCA、t-SNE等方法降低特征维度。

# PCA降维（保留95%方差）
pca = PCA(n_components=0.95)
X_pca = pca.fit_transform(X_scaled)

# 多项式特征生成
from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(degree=2, interaction_only=True)
X_poly = poly.fit_transform(X[['age', 'income']])

时间序列数据清洗

对于时间序列数据，还需额外关注以下问题：

时间戳对齐：确保时间戳的频率一致（如按小时、天对齐）。
插值处理：填补时间序列中的缺失值。
趋势与周期性分解：分离出长期趋势和周期性波动。

# 重采样对齐
df_resampled = df.resample('1H').mean()

# 季节性分解
from statsmodels.tsa.seasonal import seasonal_decompose
result = seasonal_decompose(df['value'], model='additive', period=24)

数据一致性检查

确保数据之间的逻辑关系一致。例如：
- 如果某个字段表示“出生年份”，则它应小于当前年份。
- 如果某个字段表示“性别”，则其取值应在预定义范围内（如“男”、“女”）。

# 逻辑验证
current_year = datetime.now().year
df = df[df['birth_year'] < current_year]  # 过滤不合理出生年份

# 范围验证
valid_genders = ['Male', 'Female']
df = df[df['gender'].isin(valid_genders)]

隐私与安全处理

脱敏处理：对敏感信息（如身份证号、电话号码）进行脱敏。
数据加密：对敏感字段进行加密存储。

# 数据脱敏
def anonymize_phone(phone):
    return re.sub(r'(\d{3})\d{4}(\d{4})', r'\1****\2', phone)

# 加密处理
import hashlib
df['user_id_hash'] = df['user_id'].apply(lambda x: hashlib.sha256(x.encode()).hexdigest())