1、 信息采集
n 同一个引擎支持多个数据源的索引和搜索
n 支持对多种文件系统的非结构化数据采集
n 支持对数据库系统的结构化数据采集
n 支持多种文档类型的信息采集(必须支持HTML/WORD/PPT/Excel/Text/PDF等常用文档的信息采集)
n 对内容增量的索引更新
n 采集类型、内容的配置管理的能力
n Jpg, Tiff(凭证中需要识别的文字部分) 视频、音频(会议等内容)
2、 文档分类
n 提供多种方式对文档中的实体(如人名 ,机构名称,金融产品等)进行自动提取和处理
n 支持对文档进行按规则自动分类
n 可使用由用户按需要开发的文档处理模块
n 用户可以自定义分词字典
n 基于文档元数据的分类
n 支持搜索结果的分类导航
3、 搜索功能
n 各数据源检索结果统一排序
n 搜索条件的自动提示功能
n 搜索结果页面底部的相关搜索提示,模糊搜索,同音词,前后鼻音等的提示(模糊匹配字典库自动更新、可定义)
n 检索词高亮和关键字直达
n 支持热门搜索提示(规则可定制)
n 支持个性化搜索:提供搜索条件的保存和分享(分享规则可全局定义,个人主动分享)
n 支持基于同义词,拼音的扩展搜索功能(同义字典库可定义)
n 支持搜索的应用系统范围限定
n 搜索结果支持多重排序(按相关度、时间等多个条件进行排名)
n 支持多种类型的条件查询模式,通配符支持
n 支持精确搜索
n 支持对基于搜索结果的再搜索和结果筛选
n 支持从全文到元数据的多方位联合搜索(联合搜索)
n 支持搜索结果风格的定制和自定义封装
n 基于标准、开放的系统;提供开发接口,和常用模块组件;支持二次开发。(CM平台无权限控制,CM的内容在前端应用中进行权限控制,所以企业搜索平台需要对搜索内容进行区分,在CM中的内容需要为前端应用提供搜索服务,并让前端应用可以根据搜索结果结合前端的权限控制进行展现)
4、 安全方面
n 支持基于应用授权模型的文档级安全搜索,支持带有权限的搜索(对用户、资源、权限分级管理和控制)
n 全局控制--关键词过滤
5、 管理功能
n 可提供搜索情况的分析报表
n 运行监控
6、 集成和客户化支持
n 提供搜索端接口和样本应用,支持JAVA、WEBSERVICE和.Net
一、 性能要求
1、 50个并发搜索的响应时间小于2秒;
2、 检索完整性比率要到达99%以上(查全率),对多元化资源的准确定位(查准率);
对资源分布式和引擎分布式的支持(分布式搜索);