nixiesearch:一款全功能搜索引擎

nixiesearch:一款全功能搜索引擎

nixiesearch Hybrid search engine, combining best features of text and semantic search worlds nixiesearch 项目地址: https://gitcode.com/gh_mirrors/ni/nixiesearch

项目介绍

Nixiesearch 是一款全功能的混合搜索引擎,专为云原生环境设计。它能够根据您的数据进行精细调整,提供高效、灵活的搜索体验。Nixiesearch 支持多种数据类型和搜索方法,包括文本、图像和向量搜索,以及先进的过滤、排序和自动补全功能。

项目技术分析

Nixiesearch 基于成熟的 Apache Lucene 库构建,支持 39 种语言,提供 facets、高级过滤器、自动补全建议以及排序等特性。以下是项目的一些关键技术特点:

  • 云原生设计:支持 S3 兼容的索引持久性,可以实现快速自动扩展,甚至缩减到零,简化了操作和维护。
  • 混合搜索方法:结合了基于文本的搜索和向量搜索,提供精确匹配和语义搜索。
  • 内置功能:支持 RAG 查询和向量搜索,且所有推理都可以在单个容器内本地运行,支持 CPU 和 GPU 推理。

项目及技术应用场景

Nixiesearch 适用于各种搜索场景,包括但不限于电子商务、内容管理系统、在线论坛和社交媒体平台。以下是一些具体的应用场景:

  • 电子商务网站:提供精准的产品搜索,结合用户行为数据,优化搜索结果。
  • 内容管理系统:快速索引和搜索大量文本内容,提供高效的内容检索。
  • 在线论坛和社区:实现灵活的帖子搜索,支持文本和图像搜索。

项目特点

Nixiesearch 的以下特点使其在众多搜索引擎中脱颖而出:

  • 灵活的索引和搜索:支持多种数据类型和搜索方法,满足不同场景的需求。
  • 云原生和可扩展性:能够快速自动扩展,支持 S3 兼容的存储,简化操作。
  • 本地推理能力:所有 LLM 推理都可以在本地运行,无需将查询和私有文档发送到外部 API。
  • 易于使用:提供简单的配置和部署过程,用户可以快速启动和使用。
  • 学习用户意图:通过微调嵌入模型来学习用户意图,提供更准确的搜索结果。

以下是一个简单的使用示例:

首先,获取一个示例数据集,例如 MSRD 电影搜索排名数据集:

curl -o movies.jsonl.gz https://nixiesearch.ai/data/movies.jsonl

然后,创建一个索引映射文件 config.yml,定义字段和搜索类型:

inference:
  embedding:
    e5-small:
      provider: onnx
      model: nixiesearch/e5-small-v2-onnx
      prompt:
        query: "query: "
        doc: "passage: "
schema:
  movies: # 索引名称
    fields:
      title: # 字段名称
        type: text
        search: 
          type: hybrid
          model: e5-small
        language: en # 语言用于词汇搜索
        suggest: true
      overview:
        type: text
        search: 
          type: hybrid
          model: e5-small
        language: en

接着,运行 Nixiesearch 的 Docker 容器,并加载配置文件:

docker run -itp 8080:8080 -v .:/data nixiesearch/nixiesearch:latest standalone -c /data/config.yml

最后,构建索引并发送搜索查询:

curl -XPUT -d @movies.jsonl http://localhost:8080/movies/_index
curl -XPOST -d '{"query": {"match": {"title":"matrix"}},"fields": ["title"], "size":3}'\
   http://localhost:8080/movies/_search

返回的搜索结果将包括与查询最相关的电影标题。

Nixiesearch 的设计灵感来源于 Amazon 搜索引擎的设计,它采用了独立的状态索引器和状态无关的搜索后端,通过 S3 兼容的块存储进行索引同步。这种设计避免了索引状态红色和集群脑裂的问题,同时也支持基于 Kafka 的实时文档索引。

Nixiesearch 使用 RRF(Reciprocal Rank Fusion)方法结合文本和神经搜索结果,提供更准确的搜索结果。此外,它还计划支持 LLM 微调功能,以进一步提高搜索的准确性和相关性。

总之,Nixiesearch 是一款功能强大、灵活且易于使用的搜索引擎,适用于多种搜索场景,具有很高的实用价值。

nixiesearch Hybrid search engine, combining best features of text and semantic search worlds nixiesearch 项目地址: https://gitcode.com/gh_mirrors/ni/nixiesearch

内容概要:本文介绍了密歇根大学EECS 461课程——嵌入式控制系统的核心内容及其发展背景。课程旨在教授学生嵌入式控制系统的理论与实践,包括传感器和执行器接口、实时性能和安全要求、混合行为系统、分布式控制网络等方面的知识。文中特别强调了现代汽车作为嵌入式控制系统的典型应用,从1977年到2019年间,汽车技术经历了从模拟控制到微处理器控制的巨大变革,如今的汽车具备了更高效、更环保、更安全的特点。课程还涵盖了S32K144微控制器的开发环境、实验室练习(如数字I/O、PWM信号生成、虚拟墙模拟等)以及自动代码生成工具的使用。 适合人群:具备一定编程基础,特别是对嵌入式系统感兴趣的本科生和研究生,尤其是电气工程、计算机科学专业的高年级学生或硕士生。 使用场景及目标:①了解嵌入式控制系统的基本概念和发展历程;②掌握嵌入式控制系统的设计方法和技术手段,如实时操作系统、中断处理、网络通信协议(CAN)等;③通过实际项目操作,熟悉嵌入式硬件平台和开发工具链的应用。 其他说明:随着汽车行业向智能化、自动化方向发展,对于能够开发复杂嵌入式软件的人才需求日益增长。EECS 461不仅为学生提供了扎实的技术训练,也为他们未来的职业发展打下了坚实的基础。此外,课程还反映了跨学科教育的重要性,鼓励学生打破传统学术界限,培养解决实际问题的能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

农爱宜

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值