ELG平台语言资源的整合与处理
1. 引言
ELG平台的主要功能之一是实现语言资源与技术(LRT)的共享、分发和部署。它为欧洲语言技术社区提供了数千个数据集,是该领域相关数据集最大的集合。用户可以在平台上搜索、下载和提供不同类型的资源。ELG通过识别、筛选、描述和集中来自不同清单和存储库的大量数据集及其他资源,为语言技术社区提供了一个易于使用的搜索点,目标是成为欧洲语言技术社区的“黄页”和主要平台。
2. 语言资源和存储库的识别
ELG旨在成为欧洲语言技术社区的主要市场,涉及商业和非商业组织,包括研究中心、公司、倡议和基础设施等。为覆盖所有相关的现有语言资源存储库,ELG制定了识别和收集方法。
- 联盟识别 :ELG审查了所有潜在语言技术/语言资源提供者和用户的可用清单和存储库。搜索的语言资源类型包括对语言技术应用有用的各种类型和形式,如语料库、词典、术语表和派生资源等。识别策略会根据初始结果进行调整,例如根据用户需求关注语言模型等优先级较高的数据集类型。
- 国家能力中心识别 :除联盟识别外,还对国家能力中心(NCCs)和其他合作者进行了调查,以收集更多输入和指向现有存储库和资源清单的信息。NCCs提供了新的存储库信息和详细文档,合作非常有价值,后续计划继续合作以扩大ELG的覆盖范围。
- 协作填补空白 :目前ELG已有8873个数据集描述,其数据集提供策略的下一步需要从多个角度分析和识别差距:
1. ELG联盟成员对平台贡献和摄入统计的分析。
2. 联合策略下的差距分析,如欧洲语言平等(ELE)项目和ELG试点
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



