基于内容和知识的推荐-基于语义的文本相似度度量

本文探讨了多种文本相似度计算模型,包括基于关键词、语义、本体和网络知识的模型。基于关键词的模型忽略了语义,而基于语义的模型依赖额外的语义知识,如本体和知识库。基于本体的模型利用最短路径计算词间相似度,网络知识模型则解决了实体不全和更新速度慢的问题。基于语料库的模型如PMI和词嵌入则利用大量文本数据来衡量相似度。这些模型在信息技术领域有着广泛应用。

目录

1、基于关键词的模型缺点

2、基于语义的文本相似度

3、基于本体的相似度模型

3.1 基本思想和数据源

3.2 词之间相似度度量方法

3.2.1 基于最短路径

4、基于网络知识的文本相似度模型

4.1、显式语义分析ESA模型

4.2 ESA模型的示例:

5、基于语料库的文本相似度模型


注:北大刘宏志老师的《推荐系统》课程学习,图片来源于课程PPT和参考书籍

1、基于关键词的模型缺点

只关注词形,忽略语义,无法准确计算词义相似但是词形不同的相似度,例如“西红柿”和“番茄”。

2、基于语义的文本相似度

  • 依赖额外的语义知识

  • 基于知识库 ---- 基于语料库

  • 基于显式语义的模型-----基于隐式语义的模型

3、基于本体的相似度模型

3.1 基本思想和数据源

图3.1 基于本体的相似度模型思想 

3.2 词之间相似度度量方法

3.2.1 基于最短路径

思想:本体库(语义信息网络)中两个概念词越相近,语义越相似。LCS考虑词的level,因为词的level越高,那么抽象程度越高,相同距离下的相似度就比level低的高。

图3.2 两种最短路径计算方法 

4、基于网络知识的文本相似度模型

基于本体(语义信息网络的模型)实体不全、更新速度慢的问题。而网络知识更新速度快、覆盖的范围更广。

4.1、显式语义分析ESA模型

 图4.1 ESA模型

4.2 ESA模型的示例:

图4.2 ESA模型示例

 

5、基于语料库的文本相似度模型

相比于网络知识库(如百度百科),语料库更容易获取,且覆盖面更全面。

分成基于点式互信息PMI和词嵌入两种模型

 图 5.1 基于语料库的两种文本相似度度量方法

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

KPer_Yang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值