几种常见的字符串转换为数值的方法的对比-优快云博客

本文链接：https://blog.youkuaiyun.com/xuukai/article/details/147063034

几种常见的字符串转换为数值的方法的对比，包括它们的原理、适用场景、优缺点以及示例代码：

1. 独热编码（One-Hot Encoding）

原理：将每个类别映射为一个二进制向量。
适用场景：低基数分类变量（如颜色、性别等）。
优点：避免引入序数关系。
缺点：可能导致维度爆炸，生成稀疏矩阵。
示例代码：

import pandas as pd
from sklearn.preprocessing import OneHotEncoder

data = {'颜色': ['红', '绿', '蓝', '红', '蓝']}
df = pd.DataFrame(data)

encoder = OneHotEncoder(sparse_output=False)
encoded_data = encoder.fit_transform(df[['颜色']])
print(encoded_data)

2. 标签编码（Label Encoding）

原理：将每个类别映射为一个整数。
适用场景：序数型分类变量（如等级、大小等）。
优点：简单高效，不会增加特征维度。
缺点：可能引入序数关系，导致模型误以为存在大小关系。
示例代码：

import pandas as pd
from sklearn.preprocessing import LabelEncoder

data = {'尺寸': ['小', '中', '大', '中', '小']}
df = pd.DataFrame(data)

encoder = LabelEncoder()
df['尺寸_encoded'] = encoder.fit_transform(df['尺寸'])
print(df)

3. 目标编码（Target Encoding）

原理：将每个类别映射为目标变量的统计值（如均值、中位数等）。
适用场景：高基数分类变量（如用户ID、产品ID等）。
优点：可以处理高基数特征，减少维度。
缺点：可能导致过拟合，需要适当的正则化。
示例代码：

import pandas as pd
from category_encoders import TargetEncoder

data = {'用户ID': ['A', 'B', 'C', 'A', 'B'], '购买金额': [100, 200, 150, 120, 180]}
df = pd.DataFrame(data)

encoder = TargetEncoder()
df['用户ID_encoded'] = encoder.fit_transform(df['用户ID'], df['购买金额'])
print(df)

4. 词嵌入（Word Embedding）

原理：将文本数据映射为高维向量。
适用场景：自然语言处理任务（如文本分类、情感分析等）。
优点：能够捕捉语义信息，适用于文本数据。
缺点：需要大量数据进行训练，计算成本较高。
示例代码：

from gensim.models import Word2Vec

sentences = [['我', '喜欢', '机器学习'], ['机器学习', '很有趣']]
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1)
print(model.wv['机器学习'])

5. 特征哈希（Feature Hashing）

原理：将分类变量映射为固定维度的向量。
适用场景：高基数分类变量或大规模数据。
优点：计算效率高，适用于大规模数据。
缺点：可能导致特征碰撞（不同类别映射到同一哈希值）。
示例代码：

import pandas as pd
from sklearn.feature_extraction import FeatureHasher

data = {'用户ID': ['A', 'B', 'C', 'A', 'B']}
df = pd.DataFrame(data)

hasher = FeatureHasher(n_features=4, input_type='string')
hashed_data = hasher.transform(df['用户ID'])
print(hashed_data.toarray())

6. 自定义编码

原理：根据业务逻辑或领域知识，将字符串映射为数值。
适用场景：特定业务场景（如将“高”、“中”、“低”映射为3、2、1）。
优点：灵活，可以根据业务需求定制。
缺点：需要领域知识，可能不适用于通用场景。
示例代码：

import pandas as pd

data = {'等级': ['高', '中', '低', '中', '高']}
df = pd.DataFrame(data)

mapping = {'高': 3, '中': 2, '低': 1}
df['等级_encoded'] = df['等级'].map(mapping)
print(df)

总结

方法	适用场景	优点	缺点
独热编码	低基数分类变量	避免序数关系	维度爆炸，稀疏矩阵
标签编码	序数型分类变量	简单高效	引入序数关系
目标编码	高基数分类变量	处理高基数特征，减少维度	可能导致过拟合
词嵌入	自然语言处理任务	捕获语义信息	计算成本高，需要大量数据
特征哈希	高基数分类变量或大规模数据	计算效率高	可能导致特征碰撞
自定义编码	特定业务场景	灵活，根据业务需求定制	需要领域知识，不适用于通用场景