自然语言处理中的词嵌入与文本分类
1. CBOW分类任务
1.1 数据处理与向量化
在CBOW(Continuous Bag-of-Words)分类任务中,从文本到向量化小批量数据的处理流程大多是标准的。词汇表(Vocabulary)和数据加载器(DataLoader)的功能与餐厅评论情感分类示例中的相同。但这里的向量化器(Vectorizer)与之前章节不同,它不构建独热向量,而是构建并返回一个表示上下文索引的整数向量。
以下是相关代码:
train_cbow_df = cbow_df[cbow_df.split=='train']
return cls(cbow_df, CBOWVectorizer.from_dataframe(train_cbow_df))
def __getitem__(self, index):
"""the primary entry point method for PyTorch datasets
Args:
index (int): the index to the data point
Returns:
a dict with features (x_data) and label (y_target)
"""
row = self._target_df.iloc[index]
context_vector = \
self._vectorizer.vectorize(row.context, self._max_seq_length)
target
超级会员免费看
订阅专栏 解锁全文
918

被折叠的 条评论
为什么被折叠?



