n-gram特征和文本长度规范

冰蓝蓝

已于 2024-11-15 22:31:23 修改

阅读量512

点赞数 4

分类专栏：数据预处理文章标签：自然语言处理人工智能 nlp

于 2024-11-15 22:12:23 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_47012180/article/details/143808664

版权

数据预处理专栏收录该内容

8 篇文章

订阅专栏

在自然语言处理（NLP）中，文本特征处理是将原始文本数据转换成可供机器学习算法使用的格式的重要步骤。其中，n-gram 和文本长度规范化是两种常用的文本特征处理方法，它们分别用于捕捉文本中的局部结构信息和解决不同文本长度带来的影响。下面我们将详细探讨这两种技术。

N-gram 特征提取

N-gram 是指文本中连续的n个项（通常是词或字符）组成的序列。N-gram 能够帮助捕捉文本中的短语结构和局部依赖关系，对于许多NLP任务非常有用，比如语言模型、文本分类等。

Unigram (1-gram): 每个单独的词被视为一个单元。例如，“I love NLP”会被拆分为“['I', 'love', 'NLP']”。
Bigram (2-gram): 连续两个词作为一个单元。例如，“I love NLP”会被拆分为“['I love', 'love NLP']”。
Trigram (3-gram): 连续三个词作为一个单元。例如，“I love NLP”会被拆分为“['I love NLP']”。

N-gram 的选择取决于具体的应用场景。对于需要考虑更多上下文信息的任务，可以选择较大的n值；而对于计算资源有限或者对速度有较高要求的任务，则可能选择较小的n值。

示例文本数据

假设我们有以下几条文本数据：

documents = [
    "I love natural language processing",
    "Natural language processing is fascinating",
    "Processing text data is challenging but rewarding"
]

使用 `CountVectorizer` 提取 n-gram 特征

CountVectorizer 是 scikit-learn 中的一个工具，可以用来提取文本中的 n-gram 特征。

from sklearn.feature_extraction.text import CountVectorizer

# 创建 CountVectorizer 实例，设置 n-gram 范围
vectorizer = CountVectorizer(ngram_range=(1, 2))  # 提取 unigram 和 bigram

# 将文本数据转换为 n-gram 特征矩阵
X = vectorizer.fit_transform(documents)

# 获取特征名称
feature_names = vectorizer.get_feature_names_out()

# 打印特征矩阵和特征名称
print("Feature names:", feature_names)
print("Feature matrix:\n", X.toarray())

输出

Feature names: ['challenging', 'data', 'fascinating', 'is', 'language', 'love', 'natural', 'processing', 'processing is', 'rewarding', 'text']
Feature matrix:
 [[0 0 0 0 1 1 1 1 0 0 0]
 [0 0 1 1 1 0 1 1 1 0 0]
 [1 1 0 0 0 0 0 1 0 1 1]]

文本长度规范化

在处理文本数据时，不同文本的长度可能会有很大差异。如果直接使用原始文本长度进行训练，可能会导致模型偏向于较长或较短的文本，这会影响模型的泛化能力。因此，对文本长度进行规范化是非常必要的。

填充（Padding）: 对于较短的文本，可以在其末尾添加特定的填充符号（如空格或特殊标记），使其达到预定的最大长度。这样可以确保所有输入都有相同的长度，便于批量处理。
截断（Truncating）: 如果文本过长，可以将其截断到预定的最大长度。这种方法可以减少不必要的计算开销，并且有助于模型集中注意力于最相关的部分。
动态长度处理: 一些先进的模型（如RNNs, LSTMs, 或者 Transformers）支持变长输入，这意味着它们能够自动适应不同长度的输入。虽然这种方法更灵活，但它可能需要更多的计算资源。

示例文本数据

假设我们有以下几条文本数据，长度不一：

documents = [
    "I love natural language processing",
    "Natural language processing is fascinating",
    "Processing text data is challenging but rewarding",
    "Short text"
]

使用填充和截断

我们可以使用 pad_sequences 函数来自定义文本长度。这里我们使用 tensorflow.keras.preprocessing.sequence.pad_sequences。

import tensorflow as tf

# 将文本数据转换为词索引
tokenizer = tf.keras.preprocessing.text.Tokenizer()
tokenizer.fit_on_texts(documents)
sequences = tokenizer.texts_to_sequences(documents)

# 设置最大长度
max_length = 10

# 使用 padding 和 truncating
padded_sequences = tf.keras.preprocessing.sequence.pad_sequences(
    sequences, maxlen=max_length, padding='post', truncating='post'
)

# 打印结果
print("Padded sequences:\n", padded_sequences)

输出

Padded sequences:
 [[ 1  2  3  4  5  6  7  0  0  0]
 [ 3  4  5  8  9 10  0  0  0  0]
 [ 4  5  6 11 12 13 14  0  0  0]
 [15  0  0  0  0  0  0  0  0  0]]

3. 结合 n-gram 和文本长度规范化

我们可以将 n-gram 特征提取和文本长度规范化结合起来，以获得更全面的文本表示。

完整代码示例

from sklearn.feature_extraction.text import CountVectorizer
import tensorflow as tf

# 示例文本数据
documents = [
    "I love natural language processing",
    "Natural language processing is fascinating",
    "Processing text data is challenging but rewarding",
    "Short text"
]

# 1. 提取 n-gram 特征
vectorizer = CountVectorizer(ngram_range=(1, 2))
X = vectorizer.fit_transform(documents)
feature_names = vectorizer.get_feature_names_out()
print("Feature names:", feature_names)
print("Feature matrix:\n", X.toarray())

# 2. 文本长度规范化
tokenizer = tf.keras.preprocessing.text.Tokenizer()
tokenizer.fit_on_texts(documents)
sequences = tokenizer.texts_to_sequences(documents)

max_length = 10
padded_sequences = tf.keras.preprocessing.sequence.pad_sequences(
    sequences, maxlen=max_length, padding='post', truncating='post'
)

print("\nPadded sequences:\n", padded_sequences)

输出

Feature names: ['but', 'challenging', 'data', 'fascinating', 'is', 'language', 'love', 'natural', 'processing', 'processing is', 'rewarding', 'short', 'text']
Feature matrix:
 [[0 0 0 0 0 1 1 1 1 0 0 0 0]
 [0 0 0 1 1 1 0 1 1 1 0 0 0]
 [1 1 1 0 0 0 0 0 1 0 1 0 1]
 [0 0 0 0 0 0 0 0 0 0 0 1 1]]

Padded sequences:
 [[ 1  2  3  4  5  6  7  0  0  0]
 [ 3  4  5  8  9 10  0  0  0  0]
 [ 4  5  6 11 12 13 14  0  0  0]
 [15  0  0  0  0  0  0  0  0  0]]

总结

通过上述代码示例，我们展示了如何使用 CountVectorizer 提取 n-gram 特征，并使用 tensorflow.keras.preprocessing.sequence.pad_sequences 进行文本长度规范化。这些技术可以帮助我们在处理文本数据时更好地捕捉局部结构信息和处理不同长度的文本。希望这些示例对你有所帮助！