导入文档
从文件夹中导入文本文档。
输入
• 无
输出
• 语料库(Corpus):从本地机器获取的文档集合。
• 跳过的文档(Skipped Documents):无法导入的文档列表。
本组件通过读取文件夹中的文本文件创建语料库,支持 .txt
、.docx
、.odt
、.pdf
、.xml
和 .conllu
格式。若文件夹包含子文件夹,子文件夹名称将作为类别标签。
操作步骤说明:
- 正在加载的文件夹。
- 从本地机器加载文件夹。
- 重新加载数据。
- 导入
.conllu
文件的选项。 - 已检索到的文档数量。
若组件因某些原因无法读取文件,该文件会被跳过。已成功导入的文件仍会出现在输出中。