8、网络文本语料库:特性、挑战与应对策略

网络文本语料库:特性、挑战与应对策略

1. 网络文本的语域、体裁与类型

从语言学家的角度来看,仅靠语言和主题只能部分有意义地呈现网络内容,因此人们越发关注语域和体裁问题。技术发展催生了诸如聊天室、博客和主页等新的文本形式,同时传统体裁也经历了重新媒介化,这使得书面/口语、正式/非正式语域之间的旧有界限变得模糊,需要新的分类方法。

在传统语料库中,文本通常按主题/领域和体裁进行分类,但这种方法在网络上难以复制,因为传统语料库和网络都缺乏普遍接受的文本分类类型学。从语料库语言学的角度,区分文本的体裁、语域和类型一直是核心问题,识别网络体裁和语域将有助于更科学地将网络用作语料库。然而,由于网络文档比纸质文档更复杂、更不可预测,且体裁概念正在经历民主化过程,传统的文本分类标准难以适用于网络语料库。此外,体裁、语域以及相关的文本类型、领域和风格等概念本身就比较模糊,这进一步增加了为网络绘制体裁和语域图谱的难度。

在处理网络的体裁和语域时,还需克服一些固有偏见。人们常认为网络是一个以临时写作为主的写作空间,但实际上多样性才是其关键特征。网络上既有实时创作且未经编辑的文本,也有历史或文学文本的忠实再现;既有传统体裁适应新电子环境的形式,也有新出现的电子媒介交流体裁;语域范围从最正式的法律文件到非常非正式的博客和聊天室都有。因此,网络的问题不在于其实际内容,而在于如何区分和利用其庞大的内容。

目前,研究人员已认识到需要新的分类方法。Santini(2007)基于网络体裁的进化模式,结合早期分类,提出了五种可识别的体裁类型:
1. 复制/重复体裁
2. 改编/变体体裁
3. 新兴/新颖体裁
4. 自发体裁
5. 未分类网页 </

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值