语义匹配:通过意义追踪文本复用
在文本分析领域,传统的互文分析算法大多聚焦于寻找近似的词汇对应关系,也就是可以被描述为释义的内容。然而,有一种更具创新性的方法,它更贴近读者在面对文本间有意义的联系时的行为,即便这些文本中没有相同形式或词干的词汇,这种方法将匹配限制在了语义层面。
1. 文本意义作为互文标记
从古代起,文本常常通过共享或相似的语言与前人的作品紧密相连,这一观点一直是文学阅读和研究的重要部分。5世纪的学者Macrobius首次提出了识别文本复用的问题,即便词汇不同,但语义相似性依然清晰。例如,维吉尔(Vergil)常常从早期作者那里“借用”文本,尽管经过大量修改,几乎没有词汇对应,但他确保了文本的整体意义不变,让读者能够识别与早期作品的联系。
大多数计算方法在追踪文本间的联系时,会寻找可以大致描述为释义的词汇对应关系。然而,有研究表明,文本间的有意义联系不仅通过词汇相似性产生,还通过更广泛的意义相似性,即便没有相同形式或词干的词汇。例如,在对某些文本间有意义的平行关系的研究中,约33%是由在没有超过一个共享词汇的情况下的意义相似性构成的。
人类读者在面对这种“不精确性”时,相当擅长识别文本复用。以哈姆雷特(Hamlet)的台词和《圣经》中的诗句为例:
- 哈姆雷特:“呸!啊,呸!这是一座没有除草的花园,它长满了荒草;自然界里的东西,只要是粗大和茂盛的,都占有了这一切。”(《哈姆雷特》第一幕第二场,第135 - 137行)
- 《圣经》:“荆棘和蒺藜必长出来给你,你也要吃田间的菜蔬。”(《创世记》3:18)
这两段文本虽然只共享了几个功能词,但读者可以通过提取语义意义来识别它们的关系。首先,两者都提到了植物生命
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



