文档嵌入
使用 E. Grave 等人(2018)提出的预训练 fastText 模型,将输入语料库中的文档嵌入到向量空间中。
输入
- 语料库:文档的集合。
输出
- 语料库:附加了新特征的语料库。
文档嵌入 解析语料库中每个文档的 n-grams,使用所选语言的预训练模型获取每个 n-gram 的嵌入向量,并通过提供的聚合器将这些嵌入向量合并成一个文档向量。请注意,该方法适用于任何 n-grams,但如果语料库经过预处理(例如将 n-grams 设置为单词),效果最佳(因为模型是为单词嵌入训练的)。

- 控件参数:
- 语言:选择文档的语言模型。
- 聚合器:用于将 n-grams 的嵌入向量聚合为单个文档向量的操作。
- 取消当
订阅专栏 解锁全文
213

被折叠的 条评论
为什么被折叠?



