26、机器学习与自然语言处理中的数据处理与模型应用

网恋被骗八块八

于 2025-09-02 03:51:37 发布

阅读量32

点赞数

CC 4.0 BY-SA版权

分类专栏：数据科学的艺术与实践文章标签：机器学习自然语言处理数据偏斜处理

本文链接：https://blog.youkuaiyun.com/ipfs8storage/article/details/151093175

数据科学的艺术与实践专栏收录该内容

26 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习与自然语言处理中的数据处理与模型应用

一、数据偏斜处理

在数据分析中，数据的分布情况对模型的最终预测有着重要影响。例如，年龄和前科次数的数据往往呈现右偏态分布。可以使用以下代码绘制年龄和前科次数的直方图：

# 绘制年龄直方图
compas_df['age'].plot(
    title='Histogram of Age', kind='hist', xlabel='Age', figsize=(10, 5)
)
# 绘制前科次数直方图
compas_df['priors_count'].plot(
    title='Histogram of Priors Count', kind='hist', xlabel='Priors', figsize=(10, 5)
)

这种偏斜的数据可能会影响我们的最终预测结果。为了处理数值特征的偏斜问题，可以使用 scikit-learn 管道进行特征转换。以下是使用标准缩放器的示例代码：

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

numerical_features = ["age", "priors_count"]
numerical_transformer = Pipeline(steps=[
    ('scale', StandardScaler())
])

通过这样的转换器，我们可以在机器学