Leader做了5年的搜索引擎,去年底去某宝了,临走前给我们简单分享了搜索引擎相关的干货,一直躺在邮箱里,今天抽空总结下leader关于搜索引擎的理解,以及核心技术以及周边技术。
检索的本质
a、倒排索引;
b、树;
c、存储;
d、实例:字典树–>倒排–>正排存储引擎
a、B+树
b、LSM(log-structed merge-tree)
c、实例:mysql、mongodb、leveldb、lucence、hbase分布式搜索引擎
a、行列式检索矩阵:分片(sharding)、副本同步(replication)、分布式锁
b、离线索引构建集群
c、实时流式索引Lucene核心技术
a、LSM存储引擎;
b、跳表技术(skipList);
c、向量空间模型(余弦定理)
d、压缩算法(前缀压缩、差分编码等)
e、结果集合并(bitmap)
f、堆排序
g、filterCache
h、fieldCache
i、分词器(字典树、概率模型、机器学习(隐马尔可夫、条件随机场、有限状态机、最大熵))