搜索引擎的常见特性与企业应用
一、搜索引擎的常见特性
1. 使用词典和同义词库
作为词干提取的扩展,支持词典和同义词库很有必要,它们在查找同义词时特别有用。例如,执法机构经常会遇到大量同义词,毒贩可能会将毒品称为“产品”,每个产品还有俚语称呼以及化学或科学名称。使用第三方同义词库(如 OpenOffice 格式的)或内部管理的同义词库,可以拓宽搜索词的范围。
2. 索引数据存储
企业系统中存储着大量有价值的组织数据,不同部门和不同业务类型的系统各不相同。如果需要保留这些系统,同时为所有系统提供单一搜索功能,就需要一个能连接这些企业系统的搜索引擎。另外,也可以将各种 IT 应用整合到一个通用数据平台上,该平台的数据库可能内置了搜索功能,这样能即时更新索引,新内容到来时还能主动发出警报。
3. 使用通用连接器
可以对各种企业系统进行索引,这些系统包含对企业员工有用的信息,具体如下:
- 关系数据库 :用于索引网站上销售的产品。
- 网络文件共享 :共享网络驱动器,包含常见格式的文件文档,如 Microsoft Word 和 Excel,存储的内容与办公室计算机上的类似。
- Microsoft SharePoint :与其他企业内容管理(ECM)系统(如 IBM FileNet 和 EMC Documentum)一样,控制对托管和版本化文档的访问。
- 电子邮件 :用于电子邮件发现和记录管理,存储和搜索电子邮件文本、附件以及