网络语料库:潜力与局限并存
在语言学研究中,网络作为一个庞大的文本资源库,正逐渐成为获取语言使用证据的重要来源。今天,我们就来深入探讨一下网络作为语料库的相关内容,包括其潜力、局限以及具体的应用方式。
1. 网络搜索的条件与虚拟子语料库
从语言学的角度来看,网络搜索的一些条件可以被视为从海量文本中进行筛选的一种方式。例如,指示搜索项在页面中的位置,有助于避免仅链接到页面标题或 URL 的情况;限制搜索的日期范围,则可以将网络转化为一个历时语料库。这些条件在一定程度上可以与创建一个与特定语言环境相关的临时虚拟子语料库相类比。
2. “网络证据”的潜力与局限
网络搜索常被用作“已证实用法”的证据来源,可分为定性证据(证明某种形式或结构存在)和定量证据(大致回答某种形式或结构的数量)。Fletcher 将网络提供的这种特定证据称为“网络证据”。
2.1 单字搜索的示例与问题
以单字搜索为例,这是一种看似简单的网络使用方式,比如拼写检查时,通过搜索两个竞争的拼写形式,命中次数多的可能是正确的拼写。然而,这种方法存在很大的误导性。以常见的拼写错误单词“accomodation”为例,搜索结果会自动包含正确拼写“accommodation”的结果。若要精确匹配错误拼写形式,需使用引号重新查询,但即便如此,大量的搜索结果也可能被误当作已证实用法的证据,实际上这凸显了网络数据可能存在的不可靠性和非代表性问题。
此外,普通搜索引擎提供可靠定量数据的能力也受到质疑。不同搜索引擎的结果计数往往不一致,且计数会随时间波动。因此,对于网络上的定量信息,我们需谨慎对待。只有通过逐步细化查询,网络才能有效地作为已证实用法的
超级会员免费看
订阅专栏 解锁全文
25

被折叠的 条评论
为什么被折叠?



