26、多语言语料库平台与高维数据可视化算法简化研究

prometheus9mon

于 2025-08-06 11:42:38 发布

阅读量14

点赞数

CC 4.0 BY-SA版权

分类专栏：计算科学前沿洞察文章标签： Korpusomat 多语言语料库 t-SNE

本文链接：https://blog.youkuaiyun.com/prometheus9mon/article/details/152161453

计算科学前沿洞察专栏收录该内容

78 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

多语言语料库平台与高维数据可视化算法简化研究

1. Korpusomat平台介绍

Korpusomat是一个用于创建、处理和分析多语言用户自定义文本语料库的免费平台。其架构有诸多要求，旨在以可搜索、可索引的形式处理文本。整体架构包含API平台、任务队列、搜索后端和处理管道等主要组件。

1.1 处理管道

处理管道（PP）用于将文本添加到语料库，其元素具有可配置性，包括用于标记的NLP工具、NLP工具使用的提取标签集、搜索引擎中语言层的索引模式，以及将注释文本转换为索引模式格式的XML转换器。
由于平台的多语言特性，使用了两个开源NLP库：Stanza和spaCy来提供文本的语言注释。每个工具可封装在单独且可互换的PP中，方便不同工具的使用以及同一工具在不同上下文中的应用。PP采用语义版本控制，与语料库版本关联，确保每个语料库的所有文本标记一致。特定的标签集用于索引模式生成，并附加到每个语料库，用于自定义查询构建。

不同语料库大小和NLP工具构建语料库所需时间如下表所示：
| 语料库大小（标记数） | NLP工具 | 构建时间（分钟） |
| — | — | — |
| 147,580 | spaCy | 5 (0.57) |
| 1,475,800 | spaCy | 92 (4.2) |
| 14,758,000 | spaCy | 923 (8.6) |
| 147,563 | Stanza | 13 (1.5) |
| 1,475,630 | Stanza | 94 (5.6) |