多语言语料库平台与高维数据可视化算法简化研究
1. Korpusomat平台介绍
Korpusomat是一个用于创建、处理和分析多语言用户自定义文本语料库的免费平台。其架构有诸多要求,旨在以可搜索、可索引的形式处理文本。整体架构包含API平台、任务队列、搜索后端和处理管道等主要组件。
1.1 处理管道
处理管道(PP)用于将文本添加到语料库,其元素具有可配置性,包括用于标记的NLP工具、NLP工具使用的提取标签集、搜索引擎中语言层的索引模式,以及将注释文本转换为索引模式格式的XML转换器。
由于平台的多语言特性,使用了两个开源NLP库:Stanza和spaCy来提供文本的语言注释。每个工具可封装在单独且可互换的PP中,方便不同工具的使用以及同一工具在不同上下文中的应用。PP采用语义版本控制,与语料库版本关联,确保每个语料库的所有文本标记一致。特定的标签集用于索引模式生成,并附加到每个语料库,用于自定义查询构建。
不同语料库大小和NLP工具构建语料库所需时间如下表所示:
| 语料库大小(标记数) | NLP工具 | 构建时间(分钟) |
| — | — | — |
| 147,580 | spaCy | 5 (0.57) |
| 1,475,800 | spaCy | 92 (4.2) |
| 14,758,000 | spaCy | 923 (8.6) |
| 147,563 | Stanza | 13 (1.5) |
| 1,475,630 | Stanza | 94 (5.6) |
1.2 索引与搜索
Korpusomat使用MT
超级会员免费看
订阅专栏 解锁全文
883

被折叠的 条评论
为什么被折叠?



