本文章已收录于:
版权声明:本文为博主原创文章,未经博主允许不得转载。
搜索引擎为信息检索课程的实验设计,爬取山东大学新闻网,使用lucene等开源工具搭建小型搜索引擎。
要求 :
开发工具
- Eclipse jdk1.8
- Tomcat 7.0
- Lucene4.3
- python3.6
代码托管地址:
设计方案与过程
1. 信息爬取
爬取策略与分析
通过分析发现,山大新闻网的新闻都通过分类存放在首页上方的的二级导航中,首先,我们只爬取二级导航。
本文介绍了使用Lucene搭建搜索引擎的过程,包括信息爬取、索引构建、索引查询和前端查询。采用Python爬虫抓取山东大学新闻网内容,利用Lucene进行分词和索引,实现了对新闻的全文搜索,并通过调整权重优化了搜索结果的相关性、时间和热度。
版权声明:本文为博主原创文章,未经博主允许不得转载。
搜索引擎为信息检索课程的实验设计,爬取山东大学新闻网,使用lucene等开源工具搭建小型搜索引擎。
代码托管地址:
通过分析发现,山大新闻网的新闻都通过分类存放在首页上方的的二级导航中,首先,我们只爬取二级导航。

被折叠的 条评论
为什么被折叠?