声音匹配:捕捉语言原始元素中的复用
1. 计算声音特征空间中的相对距离
在评估文学作品之间的影响时,距离的测量是一种定量评估的有效方式。若两位作家在声音特征空间中的距离较小,那么可以认为他们具有一些共同特征;反之,若距离较大,则表明他们之间几乎不存在语音关系。
以Cowper的《The Task》第六卷和Wordsworth的《The Prelude》第二卷为例,这两本书在词汇和语义上有一定的共性,因此推测它们在语音上也存在关联。为了计算二者在多维空间中的距离,需要先得到特征向量。
以下是计算Cowper的《The Task》第六卷特征向量的代码:
source("functionalNgramGenerator.R")
cowper.6 <- readLines("../data/cowper/cowper.task.part.6")
bigrams <- functionalNgramGenerator(cowper.6, 2, 5)
cat(bigrams,sep="\n")
## 1123 th 0.496683
## 950 he 0.483953
## 682 an 0.261203
## 591 in 0.270604
## 529 re 0.305780
cowper.6.v <- c(0.496683, 0.483953, 0.261203, 0.270604, 0.305780)
在多维向量空间中,常用欧几里得距离来衡量两点之间的距离。其公式为:
[d(p,q) = d(q, p) = \sqrt{\sum_{i=1}^{n
超级会员免费看
订阅专栏 解锁全文
1074

被折叠的 条评论
为什么被折叠?



