29、显式类别与字符串向量在数据处理中的应用

电竞养老选手

于 2025-09-04 11:49:49 发布

阅读量25

点赞数

CC 4.0 BY-SA版权

分类专栏：数据清洗的艺术与实践文章标签：显式类别分类变量字符串向量

本文链接：https://blog.youkuaiyun.com/tensor9flow/article/details/151269464

数据清洗的艺术与实践专栏收录该内容

32 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

显式类别与字符串向量在数据处理中的应用

显式类别

在数据处理中，我们常常会遇到不同类型的变量，其中概念上存在着仅具有少量测量值的变量和真正的分类变量之间的差异。分类变量（因子变量）能让我们更准确地表达对其使用的意图，还能实现一些额外的API功能和性能优化。

示例分析

以一个房地产开发项目的数据为例，数据包含了地块编号（Lot #）、地址（Address）、面积（Acres）和房屋风格（House Style）等信息，如下表所示：
| Lot # | Address | Acres | House Style |
| — | — | — | — |
| 32849 | 111 Middle Rd | 2 | 37 |
| 34210 | 23 High St | 1 | 21 |
| 39712 | 550 Lowe Ave | 3 | 22 |
| 40015 | 230 Cross St | 1 | 21 |
| 32100 | 112 Middle Rd | 1 | 14 |
| 30441 | 114 Middle Rd | 2 | 22 |

我们可以根据一定的领域知识来判断每个特征的性质：
- 地块编号和地址 ：地块编号通常是用来唯一描述一个房产的，地址也有类似的作用。虽然一个是整数类型，一个是字符串类型，但重要的是它们的值代表了每个记录的独特信息。即使偶尔会有地块细分或未开发无地址的情况，但总体上这些值具有近似的独特性，因此它们不是合适的分类变量候选。
- 房屋风格 ：房屋风格可能是从开发商提供的相对较少的标准户型中选择的。它虽然被编码为整数，但也可以用简短的名称来表示相同的意图。考虑到未来可能会有定制户型的房屋，我们可以用“CUSTOM”这样的名称或 -1 这样的特殊数字来编码。因此，房屋风格很可能是一个分类变量。
- 面积：如果仅看当前的数据，面积变量可能会误导我们。它是一个整数，且不同值的数量比房屋风格还少。但从领域知识可知，新开发项目通常会划分成固定的地块大小，但随着时间推移，地块可能会细分或合并，导致面积不再是整数或常见的值。所以，即使初始值可能暗示它是分类变量，但实际上我们不希望将其编码为分类变量，使用浮点数可能更合适。

使用Pandas处理分类变量

在处理包含人类姓名的数据集时，我们可以使用Pandas来读取数据，丢弃不常见的姓名，然后将姓名列转换为分类变量。以下是具体的操作步骤：
1. 读取数据 ：

import pandas as pd
humans = pd.read_csv('data/humans-names.csv')

丢弃不常见的姓名 ：

name_counts = humans.Name.value_counts()
uncommon = name_counts[name_counts < 10]
humans = (humans
          .set_index('Name')
          .drop(uncommon.index)
          .reset_index())

将姓名列转换为分类变量 ：

humans['Name'] = humans.Name.astype('category')

转换后，虽然使用这个DataFrame的方式基本不变，但过滤操作会更快。例如，我们可以像处理字符串字段一样处理姓名列，但过滤速度会提升：

humans[humans.Name == 'Mary']

使用R的Tidyverse处理分类变量

在R的Tidyverse中，处理分类变量的方式与Pandas略有不同。以下是具体的操作步骤：
1. 读取数据 ：

library(tidyverse)
humans <- read_csv('data/humans-names.csv')

将姓名列转换为因子变量 ：

humans <- mutate_at(humans, vars(Name), factor)

将出现次数少于100次的姓名合并为“UNCOMMON” ：

library(forcats)
humans['Name'] <- fct_lump_min(humans$Name, min = 100, other_level = "UNCOMMON")

转换后，我们可以查看因子变量的级别：

levels(humans$Name)

还可以过滤出姓名为“UNCOMMON”的记录：

humans %>% filter(Name == "UNCOMMON")

最后，我们可以使用ggplot2绘制姓名分布的柱状图：

library(ggplot2)
ggplot(humans, aes(y = Name)) + geom_bar(stat = "count")

字符串向量

自然语言处理（NLP）是数据科学的一个重要子领域，我们关注的一个细分领域是如何将自然语言字符串编码为机器学习模型可以接受的数值特征。

词袋模型（Bag-of-words）

词袋模型是一种将自然语言文本转换为向量的简单方法。其基本思想是先为整个语料库构建一个词汇表，即包含语料库中所有单词的集合。然后，我们可以用一个长度等于词汇表大小的向量来表示语料库中的每个文本，向量的每个维度表示该单词的出现次数。

以下是使用词袋模型处理一首诗的示例代码：

import nltk
import re
import numpy as np

# 示例诗
second_coming = """
Turning and turning in the widening gyre   
The falcon cannot hear the falconer;
Things fall apart; the centre cannot hold;
Mere anarchy is loosed upon the world,
The blood-dimmed tide is loosed, and everywhere   
The ceremony of innocence is drowned;
The best lack all conviction, while the worst   
Are full of passionate intensity.
Surely some revelation is at hand;
Surely the Second Coming is at hand.   
The Second Coming! Hardly are those words out   
When a vast image out of Spiritus Mundi
Troubles my sight: somewhere in sands of the desert   
A shape with lion body and the head of a man,   
A gaze blank and pitiless as the sun,   
Is moving its slow thighs, while all about it   
Reel shadows of the indignant desert birds.   
The darkness drops again; but now I know   
That twenty centuries of stony sleep
Were vexed to nightmare by a rocking cradle,   
And what rough beast, its hour come round at last,   
Slouches towards Bethlehem to be born?
"""

# 简化文本
def simplify_text(text):
    stops = nltk.corpus.stopwords.words('english')
    words = re.findall(r'[a-z]+', text.lower())
    return [w for w in words if w not in stops]

poem = simplify_text(second_coming)

# 创建词汇表到向量索引的映射
word2ndx = {w: n for (n, w) in enumerate(set(poem))}
print(f"Vector dimensions={len(word2ndx)}")

# 生成词袋向量
def make_vector(words, word2ndx=word2ndx):
    vec = np.zeros(len(word2ndx), dtype=np.uint16)
    for word in words:
        assert word in word2ndx
        n = word2ndx[word]
        vec[n] += 1
    return vec

# 对每一节诗进行向量编码
for i, stanza in enumerate(second_coming.split('\n\n')):
    print(f"Stanza {i+1}:")
    print(make_vector(simplify_text(stanza)))

通过词袋模型，我们可以得到每一节诗的向量表示，这些向量反映了不同节诗之间的语义差异。

Word2Vec

Word2Vec是一种比词袋模型更强大的向量表示技术。它使用两层神经网络来考虑每个单词的上下文，从而生成具有语义意义的向量。例如，在一个大型英语语料库上训练后，我们可以通过向量的加减法来捕捉单词之间的语义关系。

Doc2Vec

基于Word2Vec的改进版本Doc2Vec，也称为段落向量。在Python的gensim库中，我们可以使用Doc2Vec来对文档进行标记，并生成向量表示。

以下是使用Doc2Vec处理航空公司推文数据集的示例代码：

import sqlite3
from pprint import pprint
from gensim.models.doc2vec import Doc2Vec, TaggedDocument

# 连接数据库并查询数据
db = sqlite3.connect('data/Airline-Tweets.sqlite')
cur = db.cursor()
sql = """
SELECT name, airline, text 
FROM Tweets
"""
cur.execute(sql)
tweets = cur.fetchall()

# 打印部分数据
pprint(tweets[5000:5003], width=60)

# 准备文档
docs = []
for (author, airline, msg) in tweets:
    td = TaggedDocument(simplify_text(msg), [author, airline])
    docs.append(td)

# 训练Doc2Vec模型
model = Doc2Vec(docs, vector_size=10, window=2, min_count=4)

# 查看词汇表大小
print("Number of words:", len(model.wv.vocab))

# 查看部分词汇
print(list(model.wv.vocab)[:7])

# 获取现有推文的向量表示
msg = tweets[11001][2]
print(msg)
print(model.infer_vector(simplify_text(msg)))

# 获取新消息的向量表示
badservice = model.infer_vector(['bad', 'service'])
print(badservice)

# 查找与“bad service”最相似的单词
print(model.wv.most_similar(['bad', 'service']))

# 获取航空公司的向量表示
airlines = ('Delta', 'United', 'JetBlue')
delta, united, jetblue = (model.docvecs[x] for x in airlines)
print(f"Delta:\n{delta}\n")
print(f"United:\n{united}\n")
print(f"JetBlue:\n{jetblue}\n")

通过Doc2Vec，我们可以将推文转换为向量表示，并使用余弦相似度等方法来比较不同向量之间的关系。

总结

在数据处理中，正确识别和处理分类变量可以提高数据的存储效率和处理性能。而在自然语言处理中，词袋模型、Word2Vec和Doc2Vec等技术可以将自然语言文本转换为数值特征，为机器学习模型提供输入。这些技术在不同的场景中都有各自的优势和适用范围，我们可以根据具体需求选择合适的方法。

显式类别与字符串向量在数据处理中的应用（续）

词法处理：词干提取与词形还原

在自然语言处理中，识别单词本身也是一个重要的方面。对于“相同”单词的屈折形式，通常最好将它们视为相同的基本形式。这可以通过词干提取（stemming）或词形还原（lemmatization）来实现。

词干提取 ：词干提取试图通过去除常见词缀来识别构成单词形态根的几个字母。例如，“seeking”、“seeks”等词经过词干提取后可能会得到相同的词干“seek”。
词形还原 ：词形还原则更进一步，它会利用语法上下文和音位关系。例如，一个词形还原器可能会将作为动词的“dove”规范为“dive”（即“跳跃”的意思），而将作为名词的“dove”保持为“dove”（即“鸽子”的意思）。

在前面使用的代码中， simplify_text 函数在一定程度上进行了类似词干提取和词形还原的操作，通过去除停用词和规范化大小写，将文本转换为更简单的形式。

向量比较与应用

Gensim 库提供了丰富的函数来比较向量表示，其中常用的方法是余弦相似度（cosine similarity），即两个向量之间夹角的余弦值。通过余弦相似度，我们可以衡量不同向量之间的关系。

以下是一个 mermaid 流程图，展示了使用 Doc2Vec 进行文本处理和向量比较的流程：

graph LR
    A[读取推文数据] --> B[简化文本]
    B --> C[创建 TaggedDocument]
    C --> D[训练 Doc2Vec 模型]
    D --> E[获取向量表示]
    E --> F[计算余弦相似度]
    F --> G[查找最相似的单词或文档]

在前面的代码示例中，我们已经展示了如何使用 model.wv.most_similar 函数来查找与“bad service”最相似的单词。以下是一个更详细的操作步骤说明：
1. 准备数据 ：确保已经训练好 Doc2Vec 模型，并且有需要比较的文本。
2. 获取向量表示 ：使用 model.infer_vector 函数获取文本的向量表示。
3. 计算余弦相似度 ：使用 model.wv.most_similar 函数计算与目标向量最相似的单词或文档。

# 获取新消息的向量表示
badservice = model.infer_vector(['bad', 'service'])

# 查找与“bad service”最相似的单词
similar_words = model.wv.most_similar(['bad', 'service'])
for word, similarity in similar_words:
    print(f"Word: {word}, Similarity: {similarity}")

不同技术的对比与选择

实际应用案例分析

为了更好地理解这些技术的应用，我们可以结合前面提到的航空公司推文数据集进行分析。假设我们的目标是对航空公司的服务质量进行情感分析，以下是一个可能的实现步骤：
1. 数据预处理 ：使用 simplify_text 函数对推文进行简化处理，去除停用词和规范化大小写。
2. 特征提取 ：使用 Doc2Vec 模型将推文转换为向量表示。
3. 模型训练 ：使用机器学习模型（如支持向量机、逻辑回归等）对向量表示进行训练，以预测推文的情感倾向（正面、负面或中性）。
4. 模型评估 ：使用测试数据集对训练好的模型进行评估，计算准确率、召回率等指标。

以下是一个简化的代码示例：

from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 准备特征和标签
X = []
y = []
for (author, airline, msg) in tweets:
    vec = model.infer_vector(simplify_text(msg))
    X.append(vec)
    # 这里假设我们已经有了情感标签，实际应用中需要手动标注或使用其他方法获取
    sentiment = 'positive' if 'good' in msg.lower() else 'negative'
    y.append(sentiment)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练支持向量机模型
clf = SVC()
clf.fit(X_train, y_train)

# 预测测试集
y_pred = clf.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy}")