LARS：本地运行的LLM与高级引用解决方案-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00160/article/details/142808730

LARS：本地运行的LLM与高级引用解决方案

LARS An application for running LLMs locally on your device, with your documents, facilitating detailed citations in generated responses. 项目地址: https://gitcode.com/gh_mirrors/lar/LARS

项目介绍

LARS（Large Language Model & Advanced Referencing Solution）是一款能够在本地设备上运行大型语言模型（LLM）的应用程序。它不仅支持用户上传自己的文档，还能在与LLM的对话中，通过引用上传的内容来增强响应的准确性，减少AI生成的不准确性或“幻觉”问题。这种技术通常被称为“检索增强生成”（Retrieval Augmented Generation，RAG）。LARS旨在成为最强大的开源RAG中心LLM应用程序，通过提供详细的引用、文档名称、页码、文本高亮和相关图像，甚至直接在响应窗口中展示文档阅读器，将RAG的概念推向了新的高度。

项目技术分析

LARS的技术架构基于纯llama.cpp后端，没有使用任何框架或Python绑定，确保了高效的性能和灵活性。它支持多种文件格式，包括PDF、Word、Excel、PowerPoint、图像文件等，并提供了多种文本提取方法，包括本地文本提取和通过Azure的OCR选项。此外，LARS还支持GPU加速推理，用户可以通过设置调整LLM的温度、top-k、top-p等参数，以及选择是否使用GPU。

项目及技术应用场景

LARS适用于需要高精度AI响应的场景，如法律文档分析、学术研究、技术文档查询等。通过本地运行LLM，用户可以在不依赖云服务的情况下，保护数据隐私并获得快速响应。LARS的高级引用功能特别适合需要精确引用来源的场景，如法律诉讼、学术论文撰写等。

项目特点

高级引用功能：LLM生成的每个响应都附带详细的引用，包括文档名称、页码、文本高亮和图像提取，用户可以直接在响应窗口中浏览文档并下载高亮PDF。
广泛的文件格式支持：支持PDF、Word、Excel、PowerPoint、图像文件等多种格式，满足不同用户的需求。
转换记忆和完整聊天历史：用户可以提出后续问题，并随时回顾和恢复之前的对话。
灵活的设置选项：用户可以随时启用或禁用RAG，更改系统提示，甚至通过拖放方式更换LLM。
内置提示模板：提供多种流行的LLM提示模板，如Llama3、Llama2、ChatML等。
GPU加速推理：支持Nvidia CUDA加速推理，提升模型运行效率。
多种嵌入模型：提供四种嵌入模型选择，包括sentence-transformers/all-mpnet-base-v2、BGE-Base、BGE-Large和OpenAI Text-Ada。
源UI和重置按钮：用户可以查看上传文档的详细信息，并重置向量数据库。
自定义OCR解析器：通过Azure AI Document-Intelligence OCR服务，增强表格数据提取并防止文本重复。