文章目录
Neural Ranking Models
- 优点:避免手工特征
- 本文仅考虑text
- 仅考虑dense表示,构建排序函数
排序模型:
- vector space models [1],
- probabilistic models [2],
- learning to rank(LTR) models [3, 4]
神经网络
- 从原始输入中学习抽象表示
- 可解决困难问题
以前的LTR模型:
- 手工特征(耗时、具体)
- 相关性:定义模糊
稀疏表示/表示学习方法
- 不使用神经网络构建排序函数
- 用神经模型[15,16]的文本的低维表示,并在传统的红外模型中使用它们,
- or,使用一些新的相似性度量来排序任务。
深度-密集表示(2013-)
- 2014-2015:短文本
- Deep Structured Semantic Model (DSSM) [13]
- the ad-hoc retrieval task.
- Lu and Li[14] proposed DeepMatch,
- Community-based Question Answering (CQA)
- micro-blog matching tasks.
- ARC I and ARC II [17]
- MatchPyramid [18]
- Deep Structured Semantic Model (DSSM) [13]
- 以上用于: short text ranking tasks,such as TREC QA tracks and Microblog tracks [19].
- 2016:
- 研究人员开始讨论神经排序模型对不同排序任务[21,22]的实际有效性
- 任务:
- ad-hoc retrieval [23, 24]
- community-based QA [25]
- conversational search [26]
- 新的训练范式:
- neural representations [28]
- integration of external knowledge [29, 30
- 其他IR用途: [31, 32].
- 从0学习:(完全无手工特征)超过手工的效果
数据集
- ad hoc:short-long
- Robust [21, 18],
- ClueWeb [21],
- GOV2 [33, 34]
- Microblog[33],
- the AOL log [27]
- the Bing Search log [13, 47, 48,23].
- 大规模: NTCIR WWW Task [49],
- QA:问题比query长,答案比doc短,相关性定义精确
- TREC QA [53]
- WikiQA [37],
- WebAP [57, 58],
- InsuranceQA [59],
- WikiPassageQA [56]
- MS MARCO [36].
- 模型 [60, 19, 61, 25, 14]
- Community Question Answering:短-短(问题间匹配),清晰,对称
- the Quora Dataset7,
- Yahoo! Answers Dataset [25]
- and SemEval-2017 Task3 [64].
- 最近CQADupStack8[65],
- ComQA9[66]
- LinkSO [67].
- 模型:[68, 18, 69, 70, 25]
- Automatic Conversation
- 从问题集合中选择适当响应、生成关于输入对话的适当响应
- 单轮对话、多轮对话
- 无词表匹配问题
- 问题: correspondence/coherence and avoid general trivial responses
- 数据集:
- Ubuntu Dialog Corpus (UDC) [75,77, 78],
- Sina Weibo dataset [74, 26, 79, 80],
- MSDialog [81, 30, 82]
- ”campaign” NTCIR STC [83]
3. 同一框架
框架:LTR
神经排序模型:从对称到异构,从表示到交互

最低0.47元/天 解锁文章
718

被折叠的 条评论
为什么被折叠?



