构建欧洲语言技术社区:元数据记录的准备与集成
1 引言
欧洲语言网格(European Language Grid, ELG)旨在成为欧洲语言技术(Language Technology, LT)社区的主要平台。为了实现这一目标,ELG需要尽可能多地包含欧洲各国的语言技术公司、学术机构和研究小组。为此,ELG团队通过一系列精心设计的步骤,收集并准备了大量元数据记录,这些记录描述了欧洲语言技术社区的各个成员。本文将详细介绍这些步骤,帮助读者理解如何高效地准备和集成元数据记录。
2 数据收集
2.1 数据来源
为了确保ELG能够覆盖尽可能多的欧洲语言技术社区成员,ELG团队采用了多渠道的数据收集方法。具体包括:
- 现有数据库 :利用ELG项目团队过去十年积累的数据库。
- 桌面研究 :通过网络搜索和文献查阅,收集相关信息。
- 国家能力中心(NCCs) :与32个NCCs合作,利用他们对本国语言技术社区的深入了解,进行半自动化和分散的数据收集。
2.2 数据清单
ELG团队创建了一份详细的清单,列出了所有参与欧洲各国语言技术活动的组织。每个条