中文空间介词的新语言演化模型
1. 语言演化研究现状与问题提出
近年来,语言演化研究取得了一定进展。新形式在不同语境中的使用率能反映其在不同语境和时间下的重要性,但这只是图形模拟,难以将语言演化过程引入可计算的情境。一些研究者提出了语言变化“S 形”曲线背后的特定数学函数,如 Altmann 和 Kroch;还有人认为对交替形式随时间变化的百分比进行统计分析适用于语言演化研究,其中最具代表性的是正态分布的累积函数,其逻辑曲线方程为:
[P = \frac{e^{k + st}}{1 + e^{k + st}}]
其中 (P) 是推进形式的比例,(t) 是时间变量,(s) 和 (k) 是常数。
随着大规模历史语料库的推出,如 Google Books N gram 语料库,语言演化研究有了新的思路和方法。不少研究成果涌现,例如:
- Sagi 等人使用潜在语义分析的变体来识别特定单词从早期英语到现代英语的语义变化。
- Wijaya 和 Yeniterzi 利用“主题 - 时间”模型和 K - 均值聚类来确定所选单词从一个主题/聚类转移到另一个主题/聚类的时期。
- Gulordava 和 Baroni 使用 20 世纪 60 年代和 90 年代单词的共现计数来检测语义变化。
- Mihalcea 和 Nastase 提出了一种监督学习方法,根据单词的周围语境预测其所属的时间段,且模型识别的单词与人类评估者的评价一致。
- Juola 比较了不同时期的语言并量化了变化。
- Lijffijt 等人和 Saily 等人对历史语料库中名词/代词频率和词汇的稳定性进行了研究。
然而,这些现有研究存在局限性:
超级会员免费看
订阅专栏 解锁全文
950

被折叠的 条评论
为什么被折叠?



