信息检索:基于知识图谱和深度学习的文本表示和搜索(Explicit and distributed semantics for text representation and retrieval)

这篇博文介绍了如何利用知识图谱的显式语义和深度学习的分布式语义来扩展信息检索的文本表示。文章讨论了从知识图谱引入的实体表示、学术知识图谱的构建、实体嵌入模型以及如何通过注意力机制处理查询实体的噪声。同时,提到了分布式语义模型K-NRM,它是一个端到端的神经信息检索系统,强调了IR需要不同于NLP的嵌入表示,并预测未来趋势将是结合显式和分布式语义的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

https://pan.baidu.com/s/1hsaMmTe
https://pan.baidu.com/s/1nvyY5kP
Language Technologies Institute - Carnegie Mellon University - Chenyan Xiong

本篇博文是根据论文作者分享讲座整理,主要介绍了作者用知识图谱和分布式表示扩展语义信息来做信息检索的工作。(查询扩展的延伸)

引子

在信息检索中,文本大多数是由词袋模型来表示的。包括Query和Document

词袋模型:词向量空间里的离散的维度。当代搜索引擎的一个根基。

模型:BM25,LM,Learn2Rank

特征:TF, IDF,etc

问题:Vocabulary Mismatch

缺点:No Semantics, No Understanding, relies on a lot of feature engineering, 只是利用了统计特征

Focusing Ad hoc Search Task

Two ways to overcome the limitation of bag-of-words

  • Knowledge graph: Introduing explicit semantics from kownledge graph to search
  • Deep learning: Learn distributed semantics end-to-end from large data

知识图谱(Kownledge Graph)

实体(Entity):Concepts, named entities, general entities, Perhaps all noun phrases

常用: Freebase、yaGO、DBpedia、WIKIPEDIA

实体的优势

  • 更精简的表示 A more abstract text representation, focus on the more meaningful part of the text, noun phrases and concepts
  • 引入背景知识 Bring in semantics from the knowledge graph

Xiong C, Power R, Callan J. Explicit semantic ranking for academic search via knowledge graph embedding[C

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值