信息检索中查询优化的遗传算法:相关性反馈
1. 引言
随着存储和检索技术的显著进步,未来人们对精准获取所需信息的需求愈发迫切。电子网络、CD - ROM 等现代存储设备、多媒体系统以及超文本和超媒体链接等技术,很快会普及到普通消费者层面。而本文所讨论的查询开发方法,主要针对那些需要在一段时间内反复获取同类信息的用户。这类用户愿意投入大量时间(如几个小时)来设计一个能检索出所有或几乎所有相关信息、不检索无关信息,并能对检索到的信息进行有意义排序的查询。
遗传算法,尤其是遗传编程,已开始通过相关性反馈应用于信息检索系统。我们聚焦于基于模糊集理论的加权索引(用于指定主题性)和加权(模糊)布尔查询。遗传算法种群由所有可能查询的加权解析树组成,它能够生成改善检索性能的优质查询。
以下是我们设想的用于信息检索系统的遗传算法和相关性反馈测试环境的工作流程:
graph LR
A[开始:一个样本文档集] --> B[生成新一代查询]
B --> C[根据样本文档评估]
C --> D{是否达到稳态?}
D -- 否 --> B
D -- 是 --> E[用最佳查询评估大型文档数据库]
E --> F[输出按相关性排序的新样本文档列表]
F --> G[用户标记新文档相关性]
G --> H[更新样本文档集]
H --> I[重新初始化部分查询以增加多样性]
I --> B
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



