4、语料库语言学基础：分析方法与统计应用

fox11

于 2025-10-26 09:23:14 发布

阅读量40

点赞数

CC 4.0 BY-SA版权

分类专栏：网络即语料：语言研究新范式文章标签：语料库语言学频率列表关键词

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/fox11/article/details/154686138

网络即语料：语言研究新范式专栏收录该内容

20 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

语料库语言学基础：分析方法与统计应用

1. 语料库分析概述

语料库编译完成后，可借助特定工具对其进行探索和分析，以获取存储的信息。频率词表和索引行能体现语料库语言学中定性与定量这两种基本分析形式。

一般使用被称为索引器的语料库分析工具来查询语料库，它能检索并展示语料库中的数据。如今，索引器不仅有商业产品，如 Wordsmith Tools，还有面向研究群体的免费软件，像 AntConc。随着时间推移，索引器不断发展，从最初只能提供索引行且仅存于少数高校大型计算机中的版本，发展到 20 世纪 80 年代随个人电脑普及而出现的桌面应用程序。不过，语料库资源规模持续增大、版权限制导致的数据分发问题、不同 PC 操作系统以及桌面应用程序功能相对有限等因素，促使了第四代索引器的诞生。这些系统让用户能通过网络界面访问数据，为研究群体提供了大量语料库数据，典型例子有 Mark Davies 的 corpus.byu.edu 界面、BNCweb 和 Sketch Engine。

2. 词表与关键词

频率列表 ：频率列表是获取语料库中宝贵信息的首要途径，它呈现了语料库中所有词型及其出现频率，即原始频率。以百万词的布朗语料库和一亿词的英国国家语料库（BNC）的前 24 个词形为例，无论语料库大小如何，最常用的词大多是功能词。频率列表末尾存在大量仅出现一次的词（单现词），其中包括罕见词、专有名词、外来词，也可能有拼写错误的词或系统误判为词的字符串。
|BNC|Brown Corpus|
| ---- | ---- |
|Agesidamos 1|middle - Gaelic 1|
|E

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。