语言语料库的统计研究
1. 引言
长期以来,我们对语言的分析和描述主要采用描述性和推断性方法,语言学研究也很少借助统计学、数学等量化领域的知识。然而,随着语料库语言学、计算语言学、数学语言学等新兴领域的出现,语言开始从数学和统计的角度进行定义。学者们利用从语料库中获得的量化结果,不仅用于验证先前的观察,还用于提出新的观察、制定新假设、开发语言教学材料、设计语言处理工具等。学者Yule认为,缺乏语言特征统计信息的语言学家在处理语言数据和进行语言观察时会犯错。
2. 双焦点方法
语言语料库因其内容和构成,能代表众多文本变体,体现多种语言属性的不同用法,是信息的宝库,为统计分析方法的应用提供了可能。同时,对语料库进行统计分析得到的结果,能让我们获得关于语言的新信息和见解,为语言理论的制定和新视角的形成提供依据。
大多数语料库语言学学者采用双焦点方法,将定量和定性方法结合起来研究语料库和语言。当语料库(如印度语言的TDIL语料库)由有限的不同类型书面文本样本构建时,语料库分析师必须合理运用统计方法,以充分解释各种特征。
如果语料库能恰当地代表目标语言,即使它不适合大规模统计研究,也可用于对语言属性分布进行一般性观察。小型语料库通常用于简单的定量分析,以发现语言中不同语言属性的使用模式及其在不同文本类型中的分布情况。随后,对定量分析结果进行定性分析,并将其应用于更大的群体,从不同角度审视语言。在早期数字语料库生成阶段,由于缺乏大规模语料库,定量方法通常应用于小型语料库,且这些观察结果与大规模语料库的研究结果相符。
一般来说,对语言语料库进行定量分析的主要原因是了解各种语言属性的出现频率,这有助于我们更好地理解语言属性的使用模式
超级会员免费看
订阅专栏 解锁全文
2572

被折叠的 条评论
为什么被折叠?



