网络文本语料库:特性、挑战与应对策略
1. 网络文本的语域、体裁与类型
从语言学家的角度来看,仅靠语言和主题只能部分有意义地呈现网络内容,因此人们越发关注语域和体裁问题。技术发展催生了诸如聊天室、博客和主页等新的文本形式,同时传统体裁也经历了重新媒介化,这使得书面/口语、正式/非正式语域之间的旧有界限变得模糊,需要新的分类方法。
在传统语料库中,文本通常按主题/领域和体裁进行分类,但这种方法在网络上难以复制,因为传统语料库和网络都缺乏普遍接受的文本分类类型学。从语料库语言学的角度,区分文本的体裁、语域和类型一直是核心问题,识别网络体裁和语域将有助于更科学地将网络用作语料库。然而,由于网络文档比纸质文档更复杂、更不可预测,且体裁概念正在经历民主化过程,传统的文本分类标准难以适用于网络语料库。此外,体裁、语域以及相关的文本类型、领域和风格等概念本身就比较模糊,这进一步增加了为网络绘制体裁和语域图谱的难度。
在处理网络的体裁和语域时,还需克服一些固有偏见。人们常认为网络是一个以临时写作为主的写作空间,但实际上多样性才是其关键特征。网络上既有实时创作且未经编辑的文本,也有历史或文学文本的忠实再现;既有传统体裁适应新电子环境的形式,也有新出现的电子媒介交流体裁;语域范围从最正式的法律文件到非常非正式的博客和聊天室都有。因此,网络的问题不在于其实际内容,而在于如何区分和利用其庞大的内容。
目前,研究人员已认识到需要新的分类方法。Santini(2007)基于网络体裁的进化模式,结合早期分类,提出了五种可识别的体裁类型:
1. 复制/重复体裁
2. 改编/变体体裁
3. 新兴/新颖体裁
4. 自发体裁
5. 未分类网页 </
超级会员免费看
订阅专栏 解锁全文
891

被折叠的 条评论
为什么被折叠?



