[笔记-0]写在最前+笔记大纲

本文概述了一门信息检索课程的主要内容,包括文档表示、查询处理、最佳匹配检索等多个方面,并详细介绍了VSM、BM25等核心算法及评价方法。

0. 废话

上这门课半学期了,从刚开始的一头雾水,到现在非常喜欢它,收获很大。

教授是在这个领域很有经验,课程设计很合理,讲得也很有条理很清晰。Jamie人也超可爱的~

打算最近把前半学期的内容按照Jamie给的系统示意图中的模块整理出来,避免考完了就还给他了…

好啦,不多讲啦,开始正题~

-----------------------------------------------------------------------------------------------------

1. 总述


上图是search的大纲。


一个信息检索过程(information retrieval process)中:

  • 先从文档端开始看:

 原文档根据一些表示规则,选取出具有代表性的词汇(terms)描述这篇文档;

 这些terms通过一系列处理后形成搜索引擎系统的索引对象(index object)

  • 再从用户端(左边)开始看:

 用户首先要有信息需求(information need), 通过一系列的规则,用query描述他的信息需求;

query只是对信息需求的大概描述,它们两个是不同的~

  • 根据一些规则(如VSM,BM25,Indri等),选取出满足query的documents(retrieved objects),返回给用户;
  • 根据对返回结果的评估和反馈,可以:

1)改进query

2)改进选取返回结果的规则

3)改进索引的内容/结构等

2. 课程章节

1. Course Overview

术语;

文本的统计特性

2. Introduction to search: Exact-match retrieval 

文档表示,主要讲基本数据结构(对应右边的Representation);

Exact match检索(comparison)

3. Introduction to search: Query processing 

Index - term dictionary (右边的Representation);

Query处理(Comparison);

Query Operators(左边的representation/Query/Comparison)

4. Introduction to search: QryEval 

5. Evaluating search effectiveness (Evaluation)

Cranfield methodology(一种评价搜索引擎的方法论)

简介;测试集;评价指标

6. Evaluating search effectiveness (Evaluation)

创建测试集

动态环境(dynamic environment)中的系统评估

7. Document representation (右边的Representation)

8. Best-match retrieval: VSM, BM25(Comparison)

VSM

BM25

9. Best-match retrieval: Language models 

language model简介

Query likelihood

Kullback-Leibler(KL)Divergence

Indri

10. Query structure: Information needs and queries (Information need/Query)

信息需求

查询和查询语言

查询处理和查询重构(reformulation)

11. Query structure: Relevance and pseudo relevance feedback (Feedback)

Relevance feedback

Pseudo Relevance Feedback

12. Index creation(Index)

在单个processor上简历倒排列表

倒排文件的压缩与优化

前向索引 

13. Index creation(Index)

文档结构的存储

14. Index creation (Index)

Web搜索:Web文档集特征和计算机集群;

分布式索引:

Partitioned index

Tiered index

index construction

15. Document structure (右边Representation)

Fields

Multiple representations of meaning

Hierarchical structure(XML documents)



评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值