无手动特征的文本分类器构建与神经网络训练优化
1. 引言
在文本分类任务中,传统的神经网络模型使用多层感知器替代线性感知器来计算分数,虽然模型更强大,但输入特征是手动设计的,这些特征通常是稀疏且高维的,与密集低维的隐藏层和输出层不一致。而强大的神经网络允许我们自动组合原子特征并诱导更抽象的特征,因此我们希望尽量减少手动特征工程的工作量。
2. 无手动特征的文本分类器构建
2.1 词嵌入(Word Embeddings)
- 表示方式 :对于多层感知器等神经网络,单词可以用50 - 200维的实值向量表示,即词嵌入。词嵌入中的每个元素编码了单词的某个属性或特征,语义相似的单词在向量空间中距离较近,相比稀疏向量,密集嵌入能提供更好的语义相似度度量。
- 获取方式 :词嵌入向量可以存储在查找表中,通过输入层的对应独热向量获取,该输入层也称为嵌入层。给定单词x的独热列向量,其嵌入向量可定义为 $e_x = W^T o_x$,其中 $W$ 是词嵌入矩阵,$d$ 是嵌入向量的维度大小,$W$ 的每一列是词汇表 $V$ 中指定单词的嵌入向量。
- 训练方式 :词嵌入向量是神经网络模型参数的一部分,可以随机初始化并与其他参数一起训练,也可以在大规模原始文本上单独预训练,然后用于自然语言处理任务,这种预训练可以让模型在训练前获得有用信息,有助于特定任务(如命名实体识别)的进一步训练。
超级会员免费看
订阅专栏 解锁全文
9万+

被折叠的 条评论
为什么被折叠?



