
检索
文章平均质量分 90
编写关于检索的技术博客
Hello.Reader
so far away
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于 Elasticsearch Completion Suggester 实现高效搜索智能提示
搜索智能提示(Search Suggestion 或 Autocomplete)是指在用户输入关键词的过程中,系统根据用户的部分输入实时提供候选建议。这些提示通常基于用户的历史搜索记录、热门关键词或内容数据库生成,旨在提高搜索效率和准确性。例如,在电商平台中,当用户输入“iPh”时,系统可能会自动提示“iPhone 14 Pro Max”、“iPhone 配件”等选项,帮助用户快速完成搜索。在 Elasticsearch 中,是一种专为高效生成搜索提示而设计的工具。原创 2024-12-04 21:31:49 · 1425 阅读 · 0 评论 -
Ceph 存储系统全解
Ceph 是一个开源的分布式存储系统,旨在提供高性能、可扩展、无单点故障的统一存储平台。它可以同时支持对象存储、块存储和文件系统存储,能够满足不同存储需求的多种应用场景。Ceph 通过其强大的 RADOS(可靠、自主分布式对象存储)基础架构,实现数据的智能分布和自我管理,确保数据的高可用性和冗余。Ceph 属于分布式存储系统,它将数据分散存储在多个节点上,而不是集中在一个单独的存储服务器中。高可用性和数据冗余:通过将数据分布到多个节点,Ceph 可以确保即使某个节点出现故障,数据依然可以从其他节点恢复。原创 2024-10-28 09:30:00 · 1857 阅读 · 0 评论 -
Trino深度解析
Trino 的连接器通过 Connector API 实现与外部数据源的集成。原创 2024-10-25 09:30:00 · 3147 阅读 · 0 评论 -
PageRank算法详解:原理、模型与应用
矩阵 ( M ) 的元素 ( M_{ij} ) 表示从网页 ( j ) 跳转到网页 ( i ) 的概率。原创 2024-10-17 09:30:00 · 4153 阅读 · 0 评论 -
Lucene 实战指南构建、优化与扩展
Lucene 是一个开源的全文搜索引擎库,由 Doug Cutting 于 1999 年开发并最终捐赠给了 Apache 软件基金会。它提供了一种高效的方式来创建和管理文本索引,使开发者能够在大量的文档数据中进行快速搜索。Lucene 并不是一个完整的搜索引擎,而是一个为搜索引擎提供基础功能的库。它通过反向索引(inverted index)实现了对大规模文本数据的高效检索。Lucene 的架构由多个模块组成,每个模块负责不同的功能,协同完成文本数据的索引和检索。Analyzer(分析器)原创 2024-10-17 09:00:00 · 1823 阅读 · 0 评论 -
Quickwit 基础使用指南
什么是 Quickwit?Quickwit 是一个专注于海量数据处理的分布式搜索引擎,旨在提供高效的实时搜索解决方案。它特别适用于处理日志分析、物联网数据处理以及数据仓库的全文搜索。Quickwit 是轻量级的,但具备强大的扩展性,能够轻松处理大规模的数据集,并且在性能和资源利用率上表现出色。与其他常见的搜索引擎如 Elasticsearch 和 Solr 相比,Quickwit 提供了一种更加高效的选择,尤其是在资源受限或需要高性能搜索的场景中。Quickwit 的应用场景实时日志分析。原创 2024-09-22 09:00:00 · 1388 阅读 · 0 评论 -
Apache Paimon基础讲解
Apache Paimon是一款高效的分布式数据存储与处理框架,旨在为大规模数据处理提供一个灵活且高性能的解决方案。它集成了实时流处理和批处理的优势,支持ACID事务、强一致性和高可用性,能够在复杂的数据环境中高效地进行数据操作。Apache Paimon作为新一代的分布式数据处理与存储框架,通过集成实时处理与批处理的优势,为大规模数据处理提供了一个高效、可靠的解决方案。本文详细介绍了Paimon的架构、安装、配置、使用及优化策略,希望能够帮助你更好地理解和应用Paimon。原创 2024-09-21 09:00:00 · 1966 阅读 · 0 评论 -
深入解析ElasticSearch从基础概念到性能优化指南
在前面的章节中,我们系统地探讨了ElasticSearch的基础知识、查询优化、性能调优以及实战案例,旨在帮助你更好地理解并运用ElasticSearch来构建高效的搜索和分析系统。在本节中,我们将对主要的内容进行回顾,并展望ElasticSearch未来的发展方向及其在现代技术中的作用。原创 2024-09-18 08:45:00 · 1250 阅读 · 0 评论 -
深入理解 ClickHouse 的性能调优与最佳实践
ClickHouse是一款由 Yandex 开发的开源列式数据库,专为在线分析处理(OLAP)场景设计。它以极高的查询性能著称,尤其适用于大规模数据的快速聚合和分析。自发布以来,ClickHouse 在多个行业中得到了广泛应用,例如日志分析、监控系统、用户行为分析、广告监控等。ClickHouse 的核心优势在于其列式存储架构高效的数据压缩、以及分布式处理能力。这些特性使得它能够在处理 TB 甚至 PB 级别的大数据时,依然保持快速的响应时间。原创 2024-09-17 09:15:00 · 2669 阅读 · 0 评论 -
深入理解 Milvus:新一代向量数据库的基础技术与实战指南
在当今以数据驱动的世界中,向量数据的存储和检索正变得愈发重要。向量数据广泛应用于机器学习、深度学习等 AI 场景中,涉及到图像检索、推荐系统、自然语言处理等多种领域。传统数据库在处理结构化数据时得心应手,但面对高维向量数据却捉襟见肘,尤其在大规模、高维度场景下难以高效支持。这时候,Milvus——一款面向 AI 的开源向量数据库应运而生,它专为大规模向量数据检索而设计,能够有效应对复杂场景中的高效检索需求。原创 2024-09-09 09:30:00 · 1679 阅读 · 0 评论 -
OpenSearch 基础入门指南
OpenSearch 是一个强大且灵活的开源搜索和分析引擎,由 Amazon Web Services (AWS) 主导开发,源自 Elasticsearch 和 Kibana。它提供了实时搜索、数据分析和可视化功能,适用于各种数据密集型应用,如日志分析、全文检索和业务数据监控。除了传统的文本搜索和数据分析功能,OpenSearch 还支持多模态搜索,允许你在不同类型的数据(如文本、图像、视频和向量)上进行高级查询和分析。本文将为你介绍 OpenSearch 的基础知识,并深入探讨如何利用多模态功能来提升数原创 2024-09-10 01:00:00 · 3633 阅读 · 0 评论 -
深入探讨HNSW索引:高效的近似最近邻搜索算法
在当今的数据驱动世界中,寻找与查询向量最相似的数据点是一项关键任务,特别是在推荐系统、图像检索和自然语言处理等领域。传统的暴力搜索方法虽然精确,但在处理数百万甚至数十亿级别的高维数据时,效率难以令人满意。为了在精度和效率之间取得平衡,近似最近邻搜索(Approximate Nearest Neighbor, ANN)算法应运而生。本文将详细介绍其中一种极为高效的算法——基于分层小世界图的HNSW索引。原创 2024-08-30 14:56:53 · 1848 阅读 · 0 评论 -
向量数据库Faiss的搭建与使用
在现代数据驱动的应用中,向量相似性搜索变得越来越重要,尤其是在推荐系统、图像搜索、自然语言处理等领域。Faiss(Facebook AI Similarity Search)作为一个强大的库,专门用于高效相似性搜索和稠密向量聚类,支持在大规模向量数据上进行快速搜索和处理。本文将详细介绍Faiss的搭建与使用,帮助您快速上手这一工具。原创 2024-09-03 09:00:00 · 14386 阅读 · 0 评论 -
mongodb性能优化技巧
MongoDB作为一款高性能、可扩展的NoSQL数据库,在大数据和云计算的环境中得到了广泛应用。然而,随着数据量的增加和业务复杂性的提升,MongoDB的性能可能面临瓶颈。本文将探讨MongoDB性能优化的全面技巧,包括关键性能指标、具体解决方案及其实施步骤,帮助您最大限度地提高数据库的性能。原创 2024-08-29 09:00:00 · 2008 阅读 · 0 评论 -
深入解析Shodan与Fofa
随着技术的进步和安全威胁的演变,Shodan和Fofa的功能必将不断扩展和完善,为网络安全提供更加全面的支持。Shodan和Fofa都是网络安全研究中的利器,研究人员可以通过这些工具获取互联网设备的分布情况、漏洞信息,以及设备的固件版本等重要信息。Shodan和Fofa还可以帮助企业或个人评估其攻击面,通过这些工具,用户可以识别那些暴露在互联网中的服务和设备,了解可能的攻击路径。利用Shodan和Fofa,用户可以扫描并分析开放在互联网中的设备,查找和识别可能存在的安全漏洞,减少被攻击的风险。原创 2024-08-26 10:03:26 · 1483 阅读 · 0 评论 -
Rust 开发搜索引擎 Quickwit 替代ES,成本降低 10 倍,查询亚秒级别!
Quickwit 它是云存储上最快的搜索引擎,它非常适合用于可观察性的云原生搜索引擎,如日志、跟踪以及即将推出的指标。同时也是 Datadog、Elasticsearch、Loki 和 Tempo 的开源替代方案。原创 2024-06-17 13:36:47 · 1334 阅读 · 0 评论