文本语料库生成的关键要素与流程
在构建文本语料库时,有几个关键要素需要仔细考量,包括作者选择、目标用户确定、文本选择方法等。这些要素相互关联,共同影响着语料库的质量和实用性。
1. 作者选择
在语料库设计中,合适作者的选择是一个重要问题。通常,要开发的语料库类型决定了文本作者的选择。例如,如果目标是关注女性作家使用的语言,那么语料库中应只包含女性作家创作的文本。对于其他特定领域语言的语料库,如儿童语言、医学文本语言、法律文本语言等,也应采用类似的选择方法。
在选择作者时,存在两种不同观点。一些学者认为,著名作者的文本应在通用语料库中占主要份额,因为他们的作品受欢迎、读者众多且被广泛接受,往往能控制语言的使用模式,其作品也被认为是语言“正确使用”的高标准范例。然而,另一些人则认为,通用语料库的基本目的不是强调语言中可接受、好或正确的部分,而是代表广大普通语言使用者实际使用语言的方式。因此,语料库应包括来自各行各业的各类作者创作的文本。最终,在构建语料库时采用了“民主方法”,即广泛纳入不同作者的文本。
2. 目标用户选择
在开始语料库生成过程之前,必须解决目标用户的问题。确定目标用户有以下几个重要原因:
- 语料库的应用不仅局限于自然语言处理,还在语言学的许多其他领域有应用价值。
- 不同领域的研究人员和从业者需要不同类型的语料库来满足他们的特定研究和应用需求。
- 预先确定目标用户通常可以解决与语料库主题、内容和构成相关的许多问题。
- 目标用户可以从数字语料库存档中轻松选择适合他们工作的语料库,避免了漫长的筛选过程。
不同类型的语料库用户对语料库的形式和内容有不同的要求。例如,
超级会员免费看
订阅专栏 解锁全文
3117

被折叠的 条评论
为什么被折叠?



