FastText是一种典型DL词向量的表示方法,它通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作;
它是一个三层神经网络:输入层、隐含层、输出层;
它用单词的Embedding叠加获得的文档向量,将相似的句子分为一类;
它学到的Embedding空间维度比较低,可以快速进行训练;
如何使用验证集调参
1.通过阅读文档,要弄清楚这些参数的大致含义,哪些参数会增加模型的复杂度
2.通过验证集上进行验证模型精度,找到模型在是否过拟合还是欠拟合
3.基于验证集的结果调整超参数,使得模型性能更优(没明白 10折交叉验证,怎么调?)
常用的精度测试方法主要是交叉验证,10次的结果的均值作为对算法精度的估计,一般还需要进行多次10折交叉验证求均值。这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次。