语料库:自然语言处理的基石
1. 语料库概述
语料库数据在自然语言处理(NLP)的众多应用中,既是原始燃料,也是评估NLP应用的测试平台。简单来说,语料库是由实际语言使用构成的大量语言证据集合。它与基于语言使用的元语言反思而创造的句子不同,后者常见于生成语言学方法中。语料库通常包含日常对话、广播新闻、出版物以及儿童写作等多样材料。
语料库一般是机器可读的,因为处理数百万字的纸质语言资源或音频记录是不切实际的。虽然语料库可以是纸质的,也越来越多地包含与语音文字转录相关的录音或录像,但这里认为语料库是机器可读的。
语料库的用途广泛,在语言学和NLP领域都有应用,还受到文学文体学、历史、教学和翻译研究等其他学科研究人员的关注,是多功能资源。不过,对于语料库的定义需要更精确一些。语料库应该是一个组织良好的数据集合,在抽样框架内收集,以允许探索特定语言特征或训练NLP工具。抽样框架在语料库设计中至关重要,因为除非研究对象是高度受限的子语言或已消亡的语言,否则不可能将一种自然语言的所有话语都收集到一个语料库中。因此,语料库应在特定抽样框架内实现平衡和代表性,以便研究或建模特定语言变体。
例如,为电话售票系统开发对话管理器时构建语料库,抽样框架应明确为电话售票相关数据,而不应选择简·奥斯汀的小说或面对面的自发对话。在电话售票领域,不同类型的票务销售需要不同的问题,因此语料库应包含各种类型的电话售票对话,如火车票、飞机票和戏剧票销售,并确保包含不同的说话者,以消除个体差异,实现代表性。
2. 语料库的类型
2.1 单语、可比和平行语料库
- 单语语料库 :代表一
超级会员免费看
订阅专栏 解锁全文
765

被折叠的 条评论
为什么被折叠?



