
搜索引擎
TheHarrySky
There is nothing to be feared,it is just needed to be understand!
The individual has always had to struggle to keep from being overwhelmed by the tribe.
Stay hungry!Stay foolish!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
作业帮 PB 级低成本日志检索服务解读
背景需求高峰日志写入压力大:每秒千万级日志条数。实时要求高:日志采集到被检索最好1s内,高峰3s。成本不小:要求保存半年的日志可以回溯查询,百PB级别。备注:1PB = 1024TB,1TB = 1024GB设计思路技术选型ElasticSearch简介:1. ES负责存储和索引日志。2. 底层依赖Lucene的倒排索引技术。3. 通过shard数据分片实现分布式。缺陷:1. 为了提升写入性能,可以作聚合提交、延迟索引、减少refresh等,但始终要建立索引。日志流量巨大,每原创 2021-11-08 10:56:00 · 744 阅读 · 0 评论 -
LUCENE
LUCENELucene全文检索流程与原理如何在一篇文章中,查找一个单词?答:顺序查找,全文遍历查找。如果数据量很大怎么办?全文遍历查找很慢。答:结构数据,可以创建索引(比如:mysql B+树)。非结构化数据,如何建立索引机制?答:没有结构,提取结构。没有索引,创建索引。 1. 可以录入文章到lucene。(文档录入) 2. 将原文档传递给分词器(Tokenizer),分词器提取一个一个的单词,将标点符号去掉,去除停词(stop the world,比如:the、this)原创 2021-09-23 18:56:10 · 167 阅读 · 0 评论