文档嵌入
使用 E. Grave 等人(2018)提出的预训练 fastText 模型,将输入语料库中的文档嵌入到向量空间中。
输入
- 语料库:文档的集合。
输出
- 语料库:附加了新特征的语料库。
文档嵌入 解析语料库中每个文档的 n-grams,使用所选语言的预训练模型获取每个 n-gram 的嵌入向量,并通过提供的聚合器将这些嵌入向量合并成一个文档向量。请注意,该方法适用于任何 n-grams,但如果语料库经过预处理(例如将 n-grams 设置为单词),效果最佳(因为模型是为单词嵌入训练的)。
- 控件参数:
- 语言:选择文档的语言模