Drupal搜索HTML索引器与文件管理全解析
1. 搜索HTML索引器简介
在进行网站内容搜索时,当我们从简单的使用LIKE语句搜索VARCHAR数据库列,转向对网站内容进行严肃的索引时,就可以借助Drupal的内置HTML索引器。该索引器的目标是高效搜索大量HTML内容,它在cron任务执行时(通过 http://example.com/cron.php )处理内容。不过,新内容可被搜索的时间与cron任务的调度运行频率之间存在延迟。
索引器会解析数据并将文本拆分为单词(即分词),根据规则集为每个分词分配分数,该规则集可通过搜索API进行扩展。之后,索引器将这些数据存储在数据库中,当发起搜索请求时,它会使用这些索引表而非直接使用节点表。
需要注意的是,由于搜索和索引是在cron任务中进行的,新内容可搜索的时间与cron任务的调度运行频率之间存在延迟。此外,索引是一项密集型任务。如果你的Drupal网站很繁忙,在cron任务运行期间添加了数百个新节点,那么可能需要考虑采用与Drupal协同工作的搜索解决方案,如Solr(详见 http://drupal.org/project/apachesolr )。
2. 何时使用索引器
索引器通常在实现搜索引擎时使用,这些搜索引擎的评估方式不仅仅是标准的“匹配最多单词”方法。搜索相关性是指内容通过(通常复杂的)规则集来确定其在索引中的排名。
如果你需要搜索大量HTML内容,那么就可以利用索引器的强大功能。在Drupal中,博客、论坛、页面等都是节点,它们的基础数据结构相同,这意味着它们也共享基本功能。其中一个常见特性
超级会员免费看
订阅专栏 解锁全文
33

被折叠的 条评论
为什么被折叠?



