网络作为语料库:从下载到上传的变革
1. 网络语料的多元特性与潜力
网络的各个部分,如博客和推文,让我们能轻松探索非正式个人交流中的语言,以及用户生成内容上传时所使用的语言。网络作为即时存储用户生成内容的平台,极大地促进了非英语语言的传播,使其成为真正的多语言环境。其中,维基百科贡献卓越,其词条通常涵盖至少两三种语言,甚至更多,这大大推动了英语作为网络通用语的去中心化,让我们更容易找到多种语言、多个主题下在数量和质量上都较为一致的网络内容。
网络在语料库语言学中的应用还体现在技术层面,它为信息共享和各级协作提供了便利,为新的合作方式搭建了平台,这无疑将在语料库语言学中发挥越来越重要的作用。
2. Web 2.0 时代的维基百科:多语言语料库典范
在 Web 2.0 时代,用户的角色越发积极。如今,几乎所有用户都能创建、分享、链接、搜索、标记和修改内容,维基百科、脸书、推特和油管就是这一变革的典型代表。
从语料库语言学的角度看,维基这类 Web 2.0 工具意义重大,而维基百科是其最广泛的应用。维基允许个人内容实时发布,无需事先编辑审核,这打破了传统受众与作者角色的界限,使二者动态融合。用户能实时编辑网页,这既体现了文本的不稳定性,也淡化了个人作者的角色。维基为语言的动态性和社会性提供了实证,让用户群体能够不断协商和表达话语。
维基百科在自然语言处理、计算语言学和语料库语言学领域备受关注。它既可以看作单语百科语料库的集合,也可以视为虚拟的多语言“平行”或“可比兼平行”语料库。从语料库的角度看,维基百科模糊了“平行”和“可比”语料库的传统界限,为用户提供了一个协作构建的资源,其中的文本在其生命周期的某个阶段可能与同一语料
网络作为语料库的变革
超级会员免费看
订阅专栏 解锁全文
1624

被折叠的 条评论
为什么被折叠?



