中文空间介词的新语言演化模型
1 语言演化研究现状
语言演化是一个复杂且有趣的研究领域。以往有研究认为,新形式在不同语境中的使用率反映了其在不同语境和时间下的重要性,但这只是图形模拟,无法将语言演化过程导入可计算的情境。也有学者提出了语言变化“S 形”曲线背后的特定数学函数,如逻辑曲线方程:
[P = \frac{e^{k + st}}{1 + e^{k + st}}]
其中 (P) 是推进形式的比例,(t) 是时间变量,(s) 和 (k) 是常数。
近年来,大量大型历史语料库的推出为语言演化研究带来了新的思路和方法,出现了许多相关研究:
- Sagi 等人使用潜在语义分析的变体来识别从早期英语到现代英语中特定单词的语义变化。
- Wijaya 和 Yeniterzi 利用主题 - 时间模型和 K - 均值聚类来确定所选单词从一个主题/聚类转移到另一个主题/聚类的时期。
- Gulordava 和 Baroni 使用 20 世纪 60 年代和 90 年代单词的共现计数来检测语义变化。
- Mihalcea 和 Nastase 提出了一种监督学习方法,根据单词的周围语境预测其所属的时间段。
- Juola 比较了不同时期的语言并量化了变化。
- Lijffijt 等人和 Saily 等人对历史语料库中名词/代词频率和词汇的稳定性进行了研究。
然而,这些研究存在一定局限性:
- 主要集中在英语和德语,很少关注拥有悠久文学历史和丰富语料的中文。
- 都聚焦于单词领域,缺乏对语言中功能词使用频率的关注。
为了弥补这些不足,提出了一个新模型,以定量方式研究中文语言演化,并选择
超级会员免费看
订阅专栏 解锁全文
834

被折叠的 条评论
为什么被折叠?



