网络搜索主要包括信息采集、信息抽取、信息加工、信息检索四个模块。
1) 信息采集(网络蜘蛛)
对指定网站进行数据采集,把需要的信息存放到本地,并记录相应的采集信息。以供信息抽取模块进行数据提取。
2) 信息抽取
从采集的信息中抽取有效的数据进行结构化处理。剔除垃圾信息,获得正文内容,以及相关图片、种子文件等相关信息。对网站的追加信息、更新信息、删除信息进行分类处理。通过配置XML文件对不同站点的数据进行提取。
3) 信息加工
对抽取的信息进行数据加工处理。添加、修改、审核及相关的业务数据整理分类等。信息加工后的数据提交进行信息分词及建立索引。
4) 信息检索
提供信息查询接口。对信息进行分词处理提供全文检索接口。
1) 信息采集(网络蜘蛛)
对指定网站进行数据采集,把需要的信息存放到本地,并记录相应的采集信息。以供信息抽取模块进行数据提取。
2) 信息抽取
从采集的信息中抽取有效的数据进行结构化处理。剔除垃圾信息,获得正文内容,以及相关图片、种子文件等相关信息。对网站的追加信息、更新信息、删除信息进行分类处理。通过配置XML文件对不同站点的数据进行提取。
3) 信息加工
对抽取的信息进行数据加工处理。添加、修改、审核及相关的业务数据整理分类等。信息加工后的数据提交进行信息分词及建立索引。
4) 信息检索
提供信息查询接口。对信息进行分词处理提供全文检索接口。