词向量验证的方法通常有: 词的相似性任务(Word Similarity) 以及 词的类比任务 (Word Analogy)。
词的相似性任务-Word Similarity
常用的英文数据集:WordSim-353 、MEN、SCWS
常用的中文数据集:wordsim-240、wordsim-297
词的类比任务-Word Analogy
常用的中文数据集:Chen 2015年构造的评测文件
常用的英文数据集:MSR、SYN、SEM(暂时还没收集到)
上述的数据集上传到了github上了 :https://github.com/CallMeJiaGu/WordSimilarityAnalogyData
本文介绍了词向量评估的两种主要方法:词的相似性任务和词的类比任务,并列举了常用的中英文数据集,如WordSim-353、MEN、SCWS、wordsim-240等,以及Chen2015年构造的评测文件,为词向量模型的性能评估提供了资源。
1047





