AI LLM架构基础-自然语言处理基础之文本表示-优快云博客

本文链接：https://blog.youkuaiyun.com/achenbusi/article/details/149068282

一、引言

在自然语言处理（NLP）领域，大型语言模型（LLM）取得了显著的进展。然而，计算机无法直接处理文本，需要将文本转换为数学表示，以便应用于机器学习或深度学习模型。文本表示就是将文本数据合理编码成向量或矩阵形式的数值型数据，从而让计算机能够处理和分析。本文将深入探讨AI LLM架构基础中自然语言处理基础之文本表示的相关内容，包括常见的文本表示方法、代码解析以及实际应用案例等。

二、文本表示的重要性

文本数据是自然语言处理的主要对象，但计算机无法直接理解和处理文本。因此，将文本转换为合适的数值表示形式是自然语言处理的基础步骤。文本表示的重要性主要体现在以下几个方面：

计算机处理需求：计算机只能处理数值数据，将文本转换为数值表示可以让计算机对文本进行处理和分析。
机器学习需求：机器学习算法通常需要数值型输入，文本表示可以将文本数据转换为适合机器学习算法处理的格式。
语义信息捕捉：好的文本表示方法可以捕捉文本中的语义信息，使得语义相近的文本在数值空间中距离更近，从而提高模型的性能。

三、常见的文本表示方法

3.1 离散式表示

3.1.1 One - Hot 编码

One - Hot 编码又称为“独热编码”或“哑编码”，是最传统、最基础的词（或字）特征表示方法。这种编码将词（或字）表示成一个向量，该向量的维度是词典（或字典）的长度，该向量中，当前词的位置的值为 1，其余的位置为 0。

例如，对于句子“John likes to watch movies. Mary likes too”和“John also likes to watch football games.”，可以构造一个词典 {“John”: 1, “likes”: 2, “to”: 3, “watch”: 4, “movies”: 5, “also”: 6, “football”: 7, “games”: 8, “Mary”: 9, “too”: 10}，那么“John”的 One - Hot 编码为 [1, 0, 0, 0, 0, 0, 0, 0, 0, 0]。

One - Hot 编码的优点是简单直观，但缺点也很明显，随着语料库的增加，数据特征的维度会越来越大，产生一个维度膨胀的稀疏矩阵，并且这种表示方法的分词顺序和在句子中的顺序是无关的，不能保留词与词之间的关系信息。

3.1.2 词袋模型（Bag of Words, BoW）

词袋模型将文本表示为词汇表中所有词的出现频次，忽略词的顺序和语法结构。具体来说，就是将整段文本以词为单位切分开，然后每篇文章可以表示成一个长向量，向量中的每一维代表一个单词，而该维对应的权重则反映了这个词在原文章中的重要程度。

例如，对于上述句子，词典为 {“John”: 1, “likes”: 2, “to”: 3, “watch”: 4, “movies”: 5, “also”: 6, “football”: 7, “games”: 8, “Mary”: 9, “too”: 10}，那么第一句的向量表示为 [1, 2, 1, 1, 1, 0, 0, 0, 1, 1]，其中的 2 表示“likes”在该句中出现了 2 次。

词袋模型的优点是简单易懂，适用于基础文本分类任务，但缺点是高维稀疏矩阵，无法捕捉词的顺序和上下文信息。

3.1.3 TF - IDF（Term Frequency - Inverse Document Frequency）

TF - IDF 是在词袋模型的基础上，通过词频（TF）和逆文档频率（IDF）来加权词的出现频率，反映词在文档中的重要性。TF 表示词在文档中出现的频率，IDF 衡量词的常见程度，一个词语在一篇文章中出现次数越多，同时在所有文档中出现次数越少，越能够代表该文章。

TF - IDF 的计算公式为： $TF \times IDF$ 。例如，在一个文档集合中，如果某个词在很多文档中都出现，那么它的 IDF 值就会比较小，说明这个词的重要性较低；而如果某个词只在少数文档中出现，那么它的 IDF 值就会比较大，说明这个词的重要性较高。

TF - IDF 的优点是考虑了词的重要性，较好地处理了常见词和稀有词的问题，但仍然忽略了词序和上下文。

3.2 分布式表示

3.2.1 词嵌入（Word Embeddings）

词嵌入是将词表示为密集的向量，这些向量捕捉了词的语义和上下文信息。常用的方法包括 Word2Vec、GloVe 和 FastText。

Word2Vec：Google 2013 年提出的 Word2Vec 是目前最常用的词嵌入模型之一。它有两种网络结构，分别是 CBOW（Continues Bag of Words）和 Skip - gram。CBOW 的目标是根据上下文出现的词语来预测当前词的生成概率，Skip - gram 是根据当前词来预测上下文中各词的生成概率。

例如，在一个文本语料库中，通过训练 Word2Vec 模型，可以得到每个词的向量表示，语义上相似或相关的词，得到的表示向量也相近。

GloVe（Global Vectors for Word Representation）：基于全局统计信息，通过矩阵分解将单词嵌入到一个向量空间中。GloVe 考虑了全局语料特征，能够更好地捕捉单词之间的语义关系。
FastText：扩展了 Word2Vec，将单词视为字符的 n - gram 组合，从而能够处理未登录词和形态变化。FastText 在处理一些简单文本分类任务中表现出色，且具备训练速度非常快的优点。

词嵌入的优点是可以捕捉词的语义关系，词向量可以用于进一步的深度学习模型，但缺点是需要预训练模型或大规模语料库进行训练。

3.2.2 上下文词嵌入（Contextual Word Embeddings）

上下文词嵌入的词向量根据上下文进行动态生成，能够捕捉词在不同上下文中的含义，更好地处理多义词和上下文依赖。常用的模型包括 BERT、GPT、ELMo。

ELMo（Embeddings from Language Models）：通过双向 LSTM 模型，根据上下文生成词的向量表示。ELMo 能够考虑到词的上下文信息，对于一词多义的情况有较好的处理能力。
GPT（Generative Pre - trained Transformer）：是一种自回归模型，通过在大规模文本数据上进行预训练，学习语言的模式和规律。GPT 可以根据输入提示生成自然流畅的文本。
BERT（Bidirectional Encoder Representations from Transformers）：是一种双向 Transformer 模型，通过预训练和微调技术，在多个 NLP 任务中取得了优异的性能。BERT 能够同时考虑词的左右上下文信息，对语义理解有很好的效果。

上下文词嵌入的优点是能够捕捉词在不同上下文中的含义，但缺点是计算资源需求较高，模型复杂。

3.2.3 句子嵌入（Sentence Embeddings）

句子嵌入是将整个句子表示为一个向量，能够捕捉句子的整体语义。常用的方法包括 InferSent、Sentence - BERT。

InferSent：通过在自然语言推理任务上进行训练，学习句子的表示。InferSent 可以用于句子相似度计算和文本匹配等任务。
Sentence - BERT：是在 BERT 模型的基础上进行改进，专门用于句子嵌入的模型。Sentence - BERT 能够快速高效地生成句子的向量表示，并且在句子相似度计算等任务中表现出色。

句子嵌入的优点是适合于句子级别的任务，但缺点是需要对句子进行专门的训练或使用预训练模型。

3.2.4 主题模型（Topic Modeling）

主题模型通过建模文本的主题来表示文本，常用的方法包括 LDA（Latent Dirichlet Allocation）。LDA 是一个生成模型，它可以从文本库中发现有代表性的主题，每个文档可以表示为主题的分布，每个主题可以表示为单词的分布。

例如，在一个新闻文档集合中，通过 LDA 模型可以发现不同的主题，如政治、经济、体育等，每个文档可以表示为这些主题的概率分布。

主题模型的优点是能够发现文本中的潜在主题，适用于文本的主题分析，但缺点是模型参数选择较为复杂，可能需要大量数据进行训练。

四、代码解析

4.1 One - Hot 编码代码示例

import numpy as np

# 定义文本数据
texts = ["John likes to watch movies. Mary likes too", "John also likes to watch football games."]

# 构建词典
words = set()
for text in texts:
    for word in text.split():    
        words.add(word)
word_to_index = {word: index for index, word in enumerate(words)}

# 生成 One - Hot 编码
one_hot_encodings = []
for text in texts:
    encoding = np.zeros(len(word_to_index))
    for word in text.split():
        index = word_to_index[word]
        encoding[index] = 1
    one_hot_encodings.append(encoding)

print(one_hot_encodings)

4.2 Word2Vec 代码示例

from gensim.models import Word2Vec

# 定义文本数据
sentences = ["John likes to watch movies. Mary likes too", "John also likes to watch football games."]
sentences = [sentence.split() for sentence in sentences]

# 训练 Word2Vec 模型
model = Word2Vec(sentences, min_count=1)

# 获取单词的向量表示
vector = model.wv['John']
print(vector)

4.3 BERT 代码示例

from transformers import BertTokenizer, BertModel
import torch

# 加载预训练模型和分词器
model_name = "bert - base - uncased"
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)

# 定义文本数据
text = "John likes to watch movies."

# 分词并转换为输入格式
inputs = tokenizer(text, return_tensors='pt')

# 获取模型输出
outputs = model(**inputs)

# 获取词向量
last_hidden_states = outputs.last_hidden_state
print(last_hidden_states)