语料库语言学基础:分析方法与统计应用
1. 语料库分析概述
语料库编译完成后,可借助特定工具对其进行探索和分析,以获取存储的信息。频率词表和索引行能体现语料库语言学中定性与定量这两种基本分析形式。
一般使用被称为索引器的语料库分析工具来查询语料库,它能检索并展示语料库中的数据。如今,索引器不仅有商业产品,如 Wordsmith Tools,还有面向研究群体的免费软件,像 AntConc。随着时间推移,索引器不断发展,从最初只能提供索引行且仅存于少数高校大型计算机中的版本,发展到 20 世纪 80 年代随个人电脑普及而出现的桌面应用程序。不过,语料库资源规模持续增大、版权限制导致的数据分发问题、不同 PC 操作系统以及桌面应用程序功能相对有限等因素,促使了第四代索引器的诞生。这些系统让用户能通过网络界面访问数据,为研究群体提供了大量语料库数据,典型例子有 Mark Davies 的 corpus.byu.edu 界面、BNCweb 和 Sketch Engine。
2. 词表与关键词
- 频率列表 :频率列表是获取语料库中宝贵信息的首要途径,它呈现了语料库中所有词型及其出现频率,即原始频率。以百万词的布朗语料库和一亿词的英国国家语料库(BNC)的前 24 个词形为例,无论语料库大小如何,最常用的词大多是功能词。频率列表末尾存在大量仅出现一次的词(单现词),其中包括罕见词、专有名词、外来词,也可能有拼写错误的词或系统误判为词的字符串。
|BNC|Brown Corpus|
| ---- | ---- |
|Agesidamos 1|middle - Gaelic 1|
|E
超级会员免费看
订阅专栏 解锁全文
1196

被折叠的 条评论
为什么被折叠?



