13、自然语言处理中的词嵌入与文本分类

自然语言处理中的词嵌入与文本分类

1. CBOW分类任务

1.1 数据处理与向量化

在CBOW(Continuous Bag-of-Words)分类任务中,从文本到向量化小批量数据的处理流程大多是标准的。词汇表(Vocabulary)和数据加载器(DataLoader)的功能与餐厅评论情感分类示例中的相同。但这里的向量化器(Vectorizer)与之前章节不同,它不构建独热向量,而是构建并返回一个表示上下文索引的整数向量。

以下是相关代码:

train_cbow_df = cbow_df[cbow_df.split=='train']
return cls(cbow_df, CBOWVectorizer.from_dataframe(train_cbow_df))

def __getitem__(self, index):
    """the primary entry point method for PyTorch datasets

    Args:
        index (int): the index to the data point 
    Returns:
        a dict with features (x_data) and label (y_target)
    """
    row = self._target_df.iloc[index]
    context_vector = \
        self._vectorizer.vectorize(row.context, self._max_seq_length)
    target
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值