石头木V2-优快云博客

原创如何估计llm的GPU显存？

随着 GPT、 Llama 和 Deepseek等大型 llm 的兴起，人工智能从业者面临的最大挑战之一是弄清楚他们需要多少 GPU 显存来有效地为这些模型服务。这里通过一个简单有效的公式来估计LLM 服务所需的GPU 显存。使用上面的简单公式，我们可以估计不同精度级别所需的 VRAM，并相应地优化部署。如果我们正在处理像 Llama 70B 这样的大型模型，量化和并行是较好的选择，可以保持 GPU 成本可控。1. 使用量化：将我们的模型转换为 8 位或 4 位，以减少显存占用。

2025-04-01 10:57:41 787

原创模型上下文协议（MCP）简介

MCP 为更加互联的 AI 生态系统奠定了基础，使开发人员能够以最小的摩擦创建更智能，更强大的 AI 系统。随着越来越多的采用和不断的创新，MCP 有可能成为 AI 工具集成的行业标准，就像 TCP/IP 在网络中的作用一样。通过提供标准化的开源框架，MCP 简化了将 llm 连接到外部数据源、工具和工作流的过程，消除了复杂的一次性集成的需要。由 Anthropic 开发的 MCP 是开源的，这意味着任何人都可以使用和改进它，它旨在通过访问实时数据帮助 AI 给出更好、更相关的答案。

2025-03-28 14:57:39 730

原创利用大模型LLM生成训练数据

这里假设一家海嘉物流公司，此公司需做一个关于本公司物流的问答机器人，需要判断用户的查询语句是否与本公司物流相关，需要训练数据进行分类，故利用deepseek进行生成与审核，免于无数据和标注的烦恼。

2025-03-27 08:57:48 137

原创利用LLM实现chatexcel数据分析

利用周末时间做了一个chatexcel应用，采用自然语言对话形式，对excel表格数据进行分析，结果可返回文本，表格和图表形式。

2025-03-20 14:35:25 195

原创代理 RAG：自主 AI 代理如何改变信息检索

例如，给定一个用户查询，系统生成该查询的向量embedding，在知识库中找到类似的向量（文档），然后将这些检索到的片段与查询一起送到 LLM 中，以生成上下文感知的答案。，尽管它不是唯一的，也是最好的，市场上有很多，这里将在以后的博客中使用它们，但让这里从这个例子（一个用于构建 LLM 应用程序的开源框架）开始，以说明如何使用检索工具构建代理，同样，你可以使用其他库实现类似的想法，或者从头开始。在一个普通的 RAG 系统中（如上所示），这个过程是直接的和反应性的：对于每个查询，检索一次并生成。

2025-03-20 14:06:45 576

原创智能客服支持助手

customer_support_assistant https://github.com/jiangnanboy/customer_support_assistant1.简介customer_support_assistant是智能客服支持助手项目，利用LLM对Query的理解，去调用相应函数，实现智能客服功能。本项目具体的功能为根据用户的查询，利用deepseek去理解查询并返回所需调用的函数和参数，根据这些返回信息，调用本地函数，实现相应客服功能。本项目实现的是一个用户订单客服智能助手。2.项目LLM

2025-03-05 21:21:21 230

原创 pdf多模态rag问答

本项目对PDF文件进行解析，对其中的图、表以及文本进行Embedding化，并进行存储。根据用户query进行检索，将检索后的结果(包括图表和文本)和query输送到多模态LLM,pdf_multimodal_rag 项目主要包含pdf解析，表格检测，文本和图表的embedding化，向量存储，向量检索，LLM问答等部分。pdf multimodal rag 【pdf多模态rag问答】从而得到最终分析结果。

2025-02-26 23:23:52 840

原创如何蒸馏 Deepseek-R1

deepseek-r1蒸馏

2025-02-06 16:57:52 1972

原创一个Java实现的OCR系统

java ocr

2024-12-28 00:06:46 237

原创人工智能Agent提示工程的六个关键要素

多个版本的屏幕截图，如干净的和注释的版本，有助于减少潜在的障碍。6.补充信息：额外的上下文，例如来自代理记忆的历史数据或来自外部来源的知识，如RAG（检索-增强生成），可以改进代理的决策过程。2.Agent指令：清晰而详细的指令指导代理的操作，指定代理的角色、要遵循的规则和预期的输出。这种提示工程的系统方法最大限度地提高了llm驱动的GUI代理的有效性，使它们能够无缝地处理复杂的用户请求。一个构造良好的提示封装了所有必要的信息，确保AI Agent生成准确的响应并有效地执行任务。

2024-12-27 15:40:41 271

原创小模型在LLM时代的作用

然而，由于 SMs 的简单性、较低的成本和可访问性，在受限环境或需要高度可解释性的任务中，SMs 通常优于LLM。LLM需要大量的计算资源进行训练和推理，导致高成本和延迟，这使得它们不太适合实时应用，如信息检索，或在资源有限的环境中，如边缘设备。相比之下，较小的模型往往更专业化，研究表明，在特定领域的数据集上对它们进行微调，有时可以在特定任务上比一般LLM获得更好的性能。相比之下，较小的模型需要更少的训练数据和计算能力，在提供有竞争力的性能的同时大大降低了资源需求。

2024-09-28 22:48:22 746

原创小模型(SLM)的效率、性能和潜力

例如，最新的谷歌和三星智能手机内置了大型语言模型(LLM)服务，如 Gemini Nano，它允许第三方应用程序通过提示和模块化集成来访问 LLM 功能。同样，iphone 和 ipad 上最新的 iOS 系统包括一个与操作系统紧密集成的设备上基础模型，既增强了性能，又增强了隐私。通过在个人设备上启用人工智能功能，slm 旨在使强大技术的使用民主化，使人们能够随时随地使用智能系统，而无需依赖基于云的资源。一般来说，数据的质量比数据的数量或特定的模型架构更重要。在最近的研究中得到了越来越多的关注。

2024-09-28 22:47:48 474

原创如果没有真实数据，如何评估 RAG

下面，我们将介绍三种有效的策略，从零开始创建 ground truth 数据集的方法，当你确实拥有数据集时可以用来评估的指标，以及可以帮助你完成这一过程的现有框架。通过将数据分解成这样的特定主题，你不仅可以为训练创造更多的数据点，还可以使你的数据集更加精确和集中。它包括评估检索和生成的指标，提供了一种全面的方法来衡量您的系统在每个步骤中的表现。较高的阈值(如 0.8 或更高)意味着有更严格的要求，而较低的阈值将带来更多的数据，这可能是有帮助的，也可能只是嘈杂的。你可以利用这些反馈来构建你自己的迷你数据集。

2024-09-26 21:20:56 860

原创 AgentLite 一个轻量级LLM Agent框架

虽然 Autogen 已经成功地构建了 LLM 代理，但它的代理接口有固定的推理类型，这使得它很难适应其他研究任务。该研究还指出，LangChain 是一个流行的库，用于开发使用大型语言模型(llm)的应用程序，提供内置工具来创建各种代理类型。在其代理创建过程中可能是复杂或僵化的，它简化了任务，为研究人员开发新的代理推理类型和架构提供了灵活性和定制性。所有动作及其产生的观察结果都立即保存在memory中，允许代理在正在进行的任务期间引用其先前的决策。，这是一个旨在构建 AI 代理的开源框架。

2024-09-25 22:17:23 471

原创校对：一键修复所有错误

接下来，在一个合成数据集上对模型进行微调。校对是 Gboard 的一项新功能，它使用服务器端大型语言模型(LLM)，只需点击一下就可以提供无缝的句子级和段落级更正，减轻了那些喜欢专注于打字而不是检查已提交单词的快速打字者的痛点。使用大型语言模型(LLM)过滤噪声数据，并使用精心设计的指令，以避免污染模型。为了优化模型，使用了近端策略优化(PPO)，其中涉及到 KL 散度，以帮助模型保留恢复原始文本的能力。给定三个元素，输入(损坏的文本)，答案(从模型中预测的候选人)和目标(基本事实)，我们提出以下指标。

2024-09-25 22:16:47 596

原创 21 种 AI 小模型

小型语言模型通过为广泛的应用程序提供高效、可扩展和高性能的解决方案，正在改变 AI 的格局。它们紧凑的尺寸和减少的资源需求使其成为在计算能力和内存有限的环境中部署的理想选择。许多 slm 是通过知识蒸馏创建的，在这个过程中，较小的模型学习模仿较大模型的行为，保留了原始模型的大部分性能。许多小的语言模型都是 BERT(来自transformer的双向编码器表示)的变体，针对效率和速度进行了优化。随着新技术和体系结构的开发，slm 的性能不断提高，缩小了它们与更大模型之间的差距。

2024-09-23 22:54:06 2383

原创小语言模型:为业务需求定制AI

通过提供量身定制的、具有成本效益的解决方案，slm使公司能够利用 AI 的力量，而无需大型模型的复杂性和资源需求。无论您是希望改善患者护理的医疗保健提供商、旨在增强客户体验的零售商，还是寻求市场洞察力的企业，slm 都能提供在日益数字化的世界中保持竞争力所需的精度和效率。那些希望利用人工智能的企业来说是一个明智的举措，同时又不需要高昂的价格和大型模型的复杂性。想象一个技艺高超的工匠，他对自己的手艺了如指掌，但并不试图掌握每一项可能的技能——slm 是为了在自己的领域中脱颖而出而设计的。

2024-09-22 19:42:23 1087

原创教小模型进行推理

然而，较小的 lm 的推理能力在 CoT 提示下并没有提高，大多产生非逻辑的CoT。值得注意的是，CoT 提示甚至降低了小于 100 亿个参数的模型的准。这项研究又是一个很好的例子，证明了快速工程技术是有效的，正在进入语言模型训练。研究表明，这种提示显著提高了跨常识、符号和数学推理数据集的大型语言模型(llm)的任务准确性。谷歌断言，推理能力只出现在具有至少数百亿参数的模型中。这也是 LLM 用于生成或增强小型语言模型的训练数据的另一个例子。众所周知，思维链提示提高了大型语言模型的推理能力。

2024-09-16 22:07:26 319

原创引入语义标签过滤:利用标签相似度增强检索

然后我们可以对得到的矩阵进行转置，并对其进行压缩:我们将对可用的标签索引使用 1 和 0 来初始编码我们的查询/样本，从而得到与我们的初始矩阵(53,300)长度相同的初始向量。目前，我们缺乏适当的数学验证(乍一看，从 M 中平均相似度得分已经显示出非常有希望的结果，但需要进一步的研究来获得有证据支持的客观指标)。我们可以看到，传统搜索可能(没有额外的规则，样本是根据所有标签的可用性进行过滤的，而不是排序的)返回一个标签数量较多的样本，但其中许多标签可能不相关。的稀疏矩阵(相当不实用的壮举)。

2024-09-15 23:08:05 947

原创 RAG 幻觉检测方法

通过整合这些方法，RAG 系统可以实现更高的可靠性，并确保更准确和可信的响应。在一个广为流传的案例中，一家大型航空公司(加拿大航空公司)输掉了一场官司，因为他们的 RAG 聊天机器人对他们的退款政策的重要细节产生了幻觉。中的每个实例都包含一个检索到的大型明文财务信息上下文，以及一个关于该信息的问题，例如:卡夫亨氏(Kraft Heinz) 2015 财年的净营运资金是多少?精度的错误答案(RAGAS 忠实度的平均精度为 0.762，幻觉度量的平均精度为 0.761，自我评估的平均精度为 0.702)。

2024-09-13 21:36:44 1258

原创 EfficientRAG:多跳问题回答的高效检索器

中，作者介绍了一种高效的多跳问答检索器效率 EfficientRAG。EfficientRAG 迭代地生成新的查询，而不需要在每次迭代中调用 LLM，并过滤掉不相关的信息。LMs，包括以前 10 个检索块为知识的朴素 RAG 为基线，包括高级迭代 RAG 方法，如 Iter-RetGen[2]和 SelfAsk [3]调用、迭代、延迟和 GPU 利用率四个指标。3.69，这些结果令人印象深刻。回答查询的有用信息。

2024-09-12 22:18:28 464

原创 pediatrics_llm_qa：儿科问诊小模型

预训练模型是基于大量语料库和算法模型进行训练的，并且在训练过程中可能存在偏差、错误和不完整的信息。因此，本项目提供的预训练模型仅供参考和研究使用，并不能保证其准确性和可靠性。使用预训练模型产生的结果可能存在误差和偏差，不能用于实际应用或决策。本项目不对使用预训练模型所产生的结果承担任何责任，也不对因使用预训练模型所产生的任何损失承担责任。使用者在使用预训练模型时应自行承担风险并进行自我验证。3.下载模型参数并运行（要求单卡GPU >= 15G或者CPU）

2024-09-12 21:40:48 310

原创利用投影技术增强RAG文档检索的多样性

然而，这种方法的一个缺点是它可以返回高度相似的文档，从而导致冗余和较少的响应多样性。• retrieve_with_diversity 函数首先检索最相似的文档，然后通过减去当前最佳文档的投影来调整查询向量。当您需要在检索上下文中保持多样性时，这种基于投影的技术可以成为 RAG 系统的一个有价值的补充。即使所有检索到的文档仍然是相关的，多样性方法也可以确保它们捕获查询主题的不同方面。该技术涉及投影出先前检索文档的组件，鼓励检索过程选择内容更多样化的文档。• 有一组文档向量和一个查询向量。

2024-09-10 21:29:36 257

原创 llm_security(大模型内容安全)

利用分类法和敏感词检测法对生成式大模型的输入和输出内容进行安全检测，尽早识别风险内容。使用【ServiceApplication.java】使用者可自行训练bert类相关模型，用本项目加载即可。本项目采用java, springboot实现。

2024-09-10 20:50:14 365

原创生成式AI小抄

添加图片注释，不超过 140 字（可选）

2024-09-05 21:25:45 197

原创语义分块:改进 AI 信息检索

语义分块是一种基于内容和上下文将文本或数据划分为有意义的片段的方法，而不是任意的字数或字符限制。这些限制可能会影响人工智能生成反应的准确性和相关性，特别是在处理复杂或微妙的信息时。-与先进的 AI 模型集成:增强语义分块和前沿语言模型之间的协同作用。这些改进可以产生更可靠的 AI 系统，能够更精确地处理细微的查询。3.上下文嵌入:每个块在更广泛的文档中保留有关其上下文的信息。3.增强对复杂信息的处理能力:特别适用于长篇内容和复杂的主题。-领域适应:有效的分块策略可能因不同的领域和内容类型而异。

2024-09-05 20:48:59 377

原创时间序列分析的代理检索-增强生成

预训练的小型语言模型，如 Google 的 Gemma 和 Meta 的 lama-3，受到 8K token 上下文窗口的限制，这阻碍了它们处理长输入序列的能力。此外，直接 DPO 用于通过随机屏蔽 50%的数据并执行二元分类来预测正确的特定于任务的结果，从而将 SLM 预测导向更可靠的特定于任务的结果。这些提示与输入数据相结合，以改进预测，使模型能够适应和利用过去的知识，在不同的数据集上获得更好的性能。模块化的多代理 RAG 方法提供了灵活性，并在各种时间序列任务中实现了最先进的性能。

2024-09-04 21:46:35 947

原创支持大模型的小模型

因此，微软研究院提出了一个框架，利用小语言模型(SLM)作为初始检测器， LLM 作为约束推理器，为任何检测到的幻觉生成详细的解释。• 使用小型语言模型是有利的，因为它允许使用开源模型，从而降低了成本，提供了托管灵活性，并提供了其他好处。检测到幻觉:如果 SLM 检测到幻觉，基于 llm 的约束推理器会介入来解释 SLM 的决定。• 本研究中呈现的架构提供了对未来的一瞥，展示了一种更加协调的方法，其中多个模型协同工作。• 它还增加了发现、观察和解释的元素，提供了对幻觉检测有效性的见解。

2024-09-04 21:07:02 326

原创 GNN-RAG:以RAG形式将 llm 的语言能力与 gnns 推理进行联合

• GNN-RAG 显著提高了弱 LLMs(如 Alpaca-7B 和 Flan-T5-xl)的 KGQA 性。• 作者训练了两个不同的 GNNs，一个深 gnn (L = 3)和一个浅 gnn (L = 1)，的多跳信息(%Ans)。• 作者提出了一种 RA 技术(GNN-RAG +RA)，它将 GNN 寻回器与基于 llm。• 以上结果表明，基于 gnn 的检索比基于 LLM 的检索更高效(#LLM Calls，• 下表给出了使用GNN-RAG或LLM-based检索器(RoG和ToG)的各种llm。

2024-09-02 21:56:27 1594

原创 GraphRAG在结构化知识和人工智能之间架起了桥梁

GraphRAG，即基于图的检索增强生成，是一个复杂的 AI 框架，它将图结构的优势与语言模型结合在一起。硬件方面的进步，比如更强大的 gpu 和 tpu，有望支持更复杂图形结构的开发。此外，集成更高级的语言模型，如基于变压器的语言模型，可以进一步提高信息检索和生成的精度和相关性。3. 可伸缩性和灵活性:GraphRAG 的基于图的方法在表示数据中的复杂关系和层次结构方面提供了更大的灵活性，使其更适合各种应用程序。GraphRAG 的基于图的方法更适合于复杂的关系数据，比如知识库或社会网络。

2024-09-02 21:31:22 780

原创 RouteLLM:通过智能查询路由优化 AI 响应

相反，依靠基本的 AI 进行复杂的查询是低效的。RouteLLM 是一个创新的框架，旨在动态地将用户查询路由到最合适的 AI 模型，确保成本效益和高质量的响应。当用户提交一个问题时，RouteLLM 会评估其复杂性，并将其引导到合适的 AI 模型上——要么是更强大、更昂贵的模型，要么是更简单、更实惠的模型。1.成本效益:通过将简单的查询路由到基本的 AI，RouteLLM 可以帮助公司降低运营成本。2.增强的响应质量:复杂的查询得到更强大的 AI 的关注，确保高质量的答案。

2024-08-30 21:58:46 508

原创 Doc-Image-Tool 文档图像处理工具

文档图像处理

2024-08-27 23:06:37 490

原创合同等文档的比对实现测试

记录一下合同等文档的比对测试，以下是实现docx格式与txt格式的内容对比结果图，其中图1为docx格式，是房屋租赁合同的内容对比结果；图2是纯文本txt格式的内容对比结果。

2024-08-20 22:16:25 281

原创中文手写体识别(ocr)测试

记录一下，以下是测试中文手写体识别结果图展示（对于潦草的字迹效果一般），后期会开放模型，有java和python版本：

2024-08-05 21:47:21 690 8

原创 pdf电子发票识别

普通电子发票识别，可识别大部分电子普票，电子专票，全电发票，文件类型支持pdf和ofd格式。

2024-08-05 10:09:08 753

原创 dbnet crnn java中文ocr识别

目前只开放了通用文本检测与通用文本识别模型。【另有印刷体文档识别、手写体文字识别以及自然场景文字识别模型未开放，如有需求可联系我。

2024-08-01 08:42:22 405

原创稠密向量+稀疏向量+全文搜索+张量重排=最佳检索RAG?

因此，它为高检索混。越来越多的人认为，仅仅依靠向量搜索，通常是密集向量，可能并不总是产生令人满意的结果。与密集向量不同，稀疏向量不是语义的简化表示，而是作为全文搜索的替代方案，旨在全文搜索中对关键字进行修剪和扩展，并为倒排索引词汇表定义关键字权重。每个查询token嵌入与所有文档token嵌入之间的余弦相似度，跟踪每个查询token嵌入的最大分数，并计算出这些分数的总和，从而得到查询文档的总分数。例如，排名第一的文档得分为 1，排名第二的文档得分为 0.5，排名第三的文档得分为 0.33，以此类推。

2024-07-27 16:01:32 1527

空空如也

空空如也