Orange3实战教程:文本挖掘---导入文档

导入文档

从文件夹中导入文本文档。

输入

• 无

输出

语料库(Corpus):从本地机器获取的文档集合。
跳过的文档(Skipped Documents):无法导入的文档列表。

本组件通过读取文件夹中的文本文件创建语料库,支持 .txt.docx.odt.pdf.xml.conllu 格式。若文件夹包含子文件夹,子文件夹名称将作为类别标签。

操作步骤说明:

  1. 正在加载的文件夹。
  2. 从本地机器加载文件夹
  3. 重新加载数据。
  4. 导入 .conllu 文件的选项。
  5. 已检索到的文档数量。

若组件因某些原因无法读取文件,该文件会被跳过。已成功导入的文件仍会出现在输出中。


.conllu 文件的处理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

err2008

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值