1、哪些语义表示对文本分类有用?
对文本分类有用的语义表示包括:
- 词或字符嵌入
- 预训练词嵌入
- 区域嵌入
- 字符级表示
例如:
- 在基于CNN的框架中,词或字符嵌入通常是第一层
- FastText模型利用预训练的词嵌入进行文本分类
- Johnson和Zhang探索使用区域嵌入进行短文本分类
- Zhang等人探索使用字符级表示用于CNN
2、简述基于字符 n 元组、字节对或其他子词方法训练嵌入的原理及优势
子词嵌入方法
子词嵌入方法可以将向量表示与字符 n - 元组相关联,单词由 n - 元组向量之和表示。
例如,对于单词“indict”,当 n 在 (3, 6) 范围内时,其向量由 n - 元组 {ind, ndi, dic, ict, indi, ndic, dict, indic, ndict, indict} 的向量之和组成。
由于 n - 元组在单词间共享,即使是未见过的单词也能被表示,因为未登录词仍由有表示的 n - 元组组成。子词嵌入能显著提升语言建模和文本分类等自然语言处理任务的性能。
3、将标准的卷积神经网络(CNN)框架,如AlexNet、VGG - 16等进行修改以用于文本处理,并在数据集上对这些修改后的框架进行调研,这种研究是否有价值?
该研究有价值,不同的CNN架构可能在文本处理任务中展现出不同的性能,通过调研可以探索出更适合文本处理的架构及修改方式。
4、在训练中添加 L2 正则化,看看是否能提高在测试集上的泛化能力。
可以通过以下步骤在训练中添加 L2 正则化并验证其对测试集泛化能力的提升:
-
确定使用的模型和损失函数。对于许多基于权重的机器学习算法,如线性回归、感知机、逻辑回归和神经网络,通常会在损失函数中对权重进行惩罚。
-
在损失函数中添加 L2 正则化项。L2 正则化也称为权重衰减或岭正则化,其正则化项为 λwᵀw,其中 λ 是正则化常数,w 是权重向量。添加正则化项后的增强损失函数为:
$$
E_{\text{aug}}(h) = E_{\text{train}}(h) + \lambda w^\top w
$$
-
选择合适的正则化参数 λ。一般可以使用验证技术来选择 λ,通常选择一个较小的值,如 0.001。
-
使用添加了 L2 正则化的损失函数进行模型训练。
-
在测试集上评估模型的性能。比较添加 L2 正则化前后模型在测试集上的性能指标,如准确率、均方误差等。如果添加 L2 正则化后模型在测试集上的性能有所提升,则说明 L2 正则化有助于提高模型的泛化能力;反之,如果性能没有提升甚至下降,则需要调整正则化参数 λ 或考虑其他方法。

最低0.47元/天 解锁文章
7万+

被折叠的 条评论
为什么被折叠?



