搜索核心技术及周边技术

Leader做了5年的搜索引擎,去年底去某宝了,临走前给我们简单分享了搜索引擎相关的干货,一直躺在邮箱里,今天抽空总结下leader关于搜索引擎的理解,以及核心技术以及周边技术。

  1. 检索的本质
    a、倒排索引;
    b、树;
    c、存储;
    d、实例:字典树–>倒排–>正排

  2. 存储引擎
    a、B+树
    b、LSM(log-structed merge-tree)
    c、实例:mysql、mongodb、leveldb、lucence、hbase

  3. 分布式搜索引擎
    a、行列式检索矩阵:分片(sharding)、副本同步(replication)、分布式锁
    b、离线索引构建集群
    c、实时流式索引

  4. Lucene核心技术
    a、LSM存储引擎;
    b、跳表技术(skipList);
    c、向量空间模型(余弦定理)
    d、压缩算法(前缀压缩、差分编码等)
    e、结果集合并(bitmap)
    f、堆排序
    g、filterCache
    h、fieldCache
    i、分词器(字典树、概率模型、机器学习(隐马尔可夫、条件随机场、有限状态机、最大熵))

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值