13、自然语言处理中的词嵌入与文本分类

最新推荐文章于 2026-01-08 22:08:34 发布

原创最新推荐文章于 2026-01-08 22:08:34 发布 · 14 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #词嵌入 #CBOW

PyTorch自然语言处理入门专栏收录该内容

20 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

自然语言处理中的词嵌入与文本分类

1. CBOW分类任务

1.1 数据处理与向量化

在CBOW（Continuous Bag-of-Words）分类任务中，从文本到向量化小批量数据的处理流程大多是标准的。词汇表（Vocabulary）和数据加载器（DataLoader）的功能与餐厅评论情感分类示例中的相同。但这里的向量化器（Vectorizer）与之前章节不同，它不构建独热向量，而是构建并返回一个表示上下文索引的整数向量。

以下是相关代码：

train_cbow_df = cbow_df[cbow_df.split=='train']
return cls(cbow_df, CBOWVectorizer.from_dataframe(train_cbow_df))

def __getitem__(self, index):
    """the primary entry point method for PyTorch datasets

    Args:
        index (int): the index to the data point 
    Returns:
        a dict with features (x_data) and label (y_target)
    """
    row = self._target_df.iloc[index]
    context_vector = \
        self._vectorizer.vectorize(row.context, self._max_seq_length)
    target