智能语言处理之依存树计算句子结构相似度计算

本文探讨了句子结构相似度计算的重要性,区别于句义相似度,并提出从依存树的角度计算结构相似度的思路。简单方法是对比两棵树各级节点数量,更复杂的方法涉及依存关系权重的确定,准确率可达75%。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在此郑重声明,算法已经发表论文,程序已经申请软件著作权,如果需要在论文或者商业算法中使用请邮件至 maillmq@126.com或私信,征得同意后方可使用。

本文仅仅作为讨论研究之用。


前文已经谈起过,句子结构相似度的计算目前大多数还是采取,句子句长,句子词序,正弦等方法进行计算,这种方法显然比较原始。另一个研究领域在西方比较流行,就是对句式进行研究,从而确定句子结构相似度。注意,是句子结构相似度,并不考虑句子本身的含义。比如 我是张三 和 你是张三,句子结构相似度接近百分百,句意相似度接近零。

那么肯定有人会问,这东西完全没有价值啊,句子就是用来表达含义的为什么要计算结构呢?实际上网上太多人都把这两者混为一谈了,导致太多人误认为他们就是一回事儿。其实不是的,句子的句义相似度的计算过程中就涉及到句子结构相似度,或者换一种说法,句子结构分析是句义相似度计算的基石。举个最简单的例子,这是一匹马 和 这不是一匹马。这两句如果单纯划分词然后二分法计算的话,效果并不好,因为仅有“是”和"不是"这一对词导致差异,句子越长算出来的结果越偏离准确值“0”,如果进行句子结构分析的话,那么 “是”这个词就是谓语是这个句子依存分析的根,“不”就是对它的修饰,这个修饰与根之间的距离非常近,因此对句子的影响非常大,句子越长,越接近准确值“0”,这个简单的句子我们就可以看出来,句子结构分析是重要的一步。看到这里有些读者肯定会拿出很多程序来做实验,然后说他们算出来的句义差距就是很大,其实那都是已经成熟的程序了,对这些都有处理,我在这里说的并不是应用的层面,而是最底层的技术。

看过前文的童鞋应该还有印象,句子依存树分析出来之后有一个根,我们的计算就从根开始,最简单的思路我们可以简单描述出来了,那就是比较两棵树的相似度,不考虑依存关系的重要程度,最最简单的思路就是,树的每一级的数量和另一棵树这一级的数量进行对比,然后

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值