语料库语言学基础原理与构建解析
语料库语言学是基于对真实数据的观察来研究语言的实证方法。它是语言研究复兴的明显成果,这种复兴借助计算机数据存储的可能性,使语言研究更基于实际使用的真实例子,而非内省。
1. 语料库的关键特性
1.1 真实性
语料库语言学专注于真实语言使用,这是二十世纪早期基于语料库方法的遗产。早期美国结构主义者和实地语言学家仔细记录语言使用的实证数据,尽管当时未使用“语料库语言学”这一相对较新的术语,但语言学在一定程度上一直对真实语言实例感兴趣。
然而,二十世纪中叶乔姆斯基认知方法的出现打破了早期语料库语言学与当代计算机化语料库语言学的理想连续性。乔姆斯基传统认为观察真实数据缺乏重要的理论意义,研究语言行为只能为基于语言表现偶然性的理论模型提供数据,而无法触及绝对的语言能力。
但语料库语言学认为,语言表现(外部语言,E - 语言)是语言能力(内部语言,I - 语言)的关键体现。正如韩礼德用“天气”隐喻所论证的,可见的真实语言使用实例与不可见的抽象语言系统之间的关系,类似于天气与气候的关系。现代计算机化语料库使语言学家能更好地洞察语言系统。
1.2 代表性
代表性与真实性密切相关,是定义语料库的重要标准。许多早期定义都将代表性视为关键问题。例如,弗朗西斯认为语料库是假定能代表给定语言、方言或语言子集的文本集合,用于语言分析;比伯等人指出语料库旨在代表一种语言或其一部分,其代表性决定了能解决的研究问题和研究结果的可推广性。
代表性涉及文本的类型、数量、选择、样本长度等,还需考虑语料库所代表语言的使用者。辛克莱认为这更适合文化社会学研究,他强调应根据文本在产生社区
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



