一、互联网信息采集与处理检索系统
1.
新闻搜索引擎SPIDER
2.
网页搜索引擎SPIDER
3.
定向专业搜索SPIDER
4.
基于视觉的正文智能提取模块(自动正文提取)
5.
智能摘要提取模块
6.
去重模块
7.
智能分类模块
8.
检索前端类聚模块
9.
分词模块
10.
索引模块
11. 最大可支持10TB以上数据容量,可分层建索引库、分布索引、分布检索、分布采集处理。
二、
WEB结构化信息抽取技术(格式化数据抽取)
应用于垂直搜索引擎的重要技术,抽取出结构化数据,对具体网页无依赖,直接针对数据类型进行抽取。
,作为 WEB结构化信息抽取技术的补充。
应用于垂直搜索引擎,情报分析处理(科研产品)
本文介绍了一种互联网信息采集与处理检索系统,包括新闻及网页搜索引擎爬虫、视觉正文智能提取等模块,支持10TB以上数据容量。同时,涵盖了WEB结构化信息抽取技术和自然语言的结构化信息抽取技术。
217

被折叠的 条评论
为什么被折叠?



