ToTensor-优快云博客

原创 LightRAG简要概述

多种模式问答: “naive”, “local”, “global”, “hybrid”, “mix”4、插入图数据库，其中，实体描述和关系描述，都会被向量化，插入向量数据库中，以便检索时使用。3、合并实体，根据多个实体描述，进行摘要，作为最后的实体描述。2、LLM判断是否有漏掉的实体与关系，如有则接着提取。直接用query检索文档chunk，不展开叙述。local 与 global得到的数据进行合并。hybrid 与 naive得到的数据进行合并。如果没有找到低级关键词，则走global模式。

2025-03-17 20:18:46 570

原创 HippoRAG 2 原理精读

1、只是用三元组来协助检索，并没有利用图2、难以相信这种做法能超越普通RAG几十个点。

2025-03-11 10:27:32 515

原创基于Ultravox训练自己的语音大模型

Ultravox 是一种新型的多模态语言模型，能够理解文本以及语音，无需单独的音频语音识别（ASR）阶段。基于像AudioLM、SeamlessM4T、Gazelle、SpeechGPT等研究，Ultravox 能够使用多模态投影扩展任何开放权重的语言模型，该投影将音频直接转换为语言模型使用的高维空间。我们已经在 Llama 3、Mistral 和 Gemma 上训练了版本。这种直接耦合使得 Ultravox 比结合单独的 ASR 和语言模型组件的系统响应速度快得多。

2025-03-06 21:05:25 858

原创 Ktransformers实践-仅用14G显存就能跑Deepseek-R1 671B

KTransformers 的原理主要基于以下核心技术：1. **异构计算与任务卸载**：通过混合专家（MoE）架构的稀疏性，将稀疏矩阵卸载到 CPU/DRAM 处理，稠密部分保留在 GPU 上，从而大幅降低显存需求。2. **高性能算子优化**：- 在 CPU 端，使用 Llamafile 内核结合多线程、任务调度和负载均衡优化，提升推理效率。- 在 GPU 端，引入 Marlin 内核，专门优化量化矩阵计算，相比传统库加速 3.87 倍。

2025-03-04 15:14:45 1308 2

原创使用启智社区免费昇腾910B部署LLM

前段时间想玩玩昇腾，发现华为云上租地GPU服务器，没有最新地cann8.0的镜像，自己折腾了许久，根本无法替换自己的镜像上去，此处省略一万字关于华为云的吐槽。启智社区提供了不少国产厂家的免费算力，接下来，话不多说，开整。

2024-12-23 11:50:15 2068 1

原创 VLLM 格式化LLM输出

vllm OpenAI Compatible Server 提供了格式化LLM输出的能力，默认的格式化解码后端应该是outlinesguided_json: 按照给定的json schema输出guided_choice: 从给定的选项里面选一个guided_regex: 按照给定的正则表达式输出guided_grammar: 按照给定的扩展巴科斯范式（EBNF）格式的上下文无关语法输出（我也不懂）下面我们直接看看如何使用这四个参数，控制LLM的输出messages=[],

2024-11-27 18:12:05 1398

原创 CUDA环境安装终极指南——Linux（其它系统也一样）

不用看其它文章了，这篇文章保你不踩任何坑，安装方法简单快速。

2024-10-30 15:48:29 1658

原创使用Qdrant + CNCLIP + Gradio 实现图文检索

效果。

2024-09-04 13:29:50 678

原创 LLM之Agent落地篇

LLM之Agent初探LLM之Agent再探前面两篇文章主要是介绍了如何用LLM做个Agent的Demo，离实际的落地，还差了一大截，这篇文章就来讲讲Agent该如何落地。以下几个模块，是Agent在企业产品落地中必然会碰到的问题以上三个模块，仅仅提供一种思路，各位有更好的想法，可以在评论区留言讨论。暂时写到这儿了，有点流水账的感觉，很久没写了。

2024-08-08 17:47:32 680

原创 Text2SQL之Vanna优化

前阵子写了篇Text2SQL的简单介绍，发现其也是RAG只会，写下了Text2SQL之不装了，我也是RAG最近也一直在做Text2SQL的优化，于是把自己的一些心得，总结于这篇文章。提升RAG的效果，能一定程度上提升Text2SQL的效果，剩下的，就看LLM的能力了。

2024-06-17 21:24:04 1671 2

原创 Text2SQL之不装了，我也是RAG

这是很典型的Text2SQL的应用场景了，为了实现这一需求，很容想到的是把创建的表和表的描述都放进prompt里，让LLM去根据表的结构生成SQL语句，再利用工具去执行SQL语句，拿到查询结果后，再丢给LLM，让LLM根据给定的内容回答问题。我这里没有对Query-SQL对中的SQL做检索，主要是考虑到用户的Query与SQL语句的相关性并不大，当然，获取数据这里修改成只计算Query的相关性时，你还需要对Query-SQL的向量化部分进行相应修改，应改成只对Query embedding。

2024-06-01 13:33:43 1101

原创垂域LLM训练经验之谈

全参 SFTLora SFTLora 继续预训练Llama pro 预训练 + SFT预训练数据：由SFT数据的Query 与 Answer 的拼接SFT数据：由GPT4根据垂域文档抽取问答对+人工挑选而来，大概20000条，其中包括公司的介绍自我认知数据：大概200条，从公开的自我认知数据整理而来匠数科技大模型sft数据集显卡训练框架基座模型Qwen1.5-7B1、全参微调学东西最快2、lora要学习垂域知识，得多训几个epoch才行，或者对数据集进行过采样。

2024-06-01 12:23:49 438

原创 Llama3-chinese: 大幅改进Llama3 中文能力

是以Meta-Llama-3-8B为底座，使用DORALORA+的训练方法，在50w高质量中文多轮SFT数据 + 10w英文多轮SFT数据 + 2000单轮自我认知数据训练而来的大模型。

2024-04-22 13:26:05 7689 1

原创 Qwen-WisdomVast (千问-智瀚)

是以Qwen1.5-7B为底座，使用DORALORA+的训练方法，在100w高质量中文多轮SFT数据 + 20w英文多轮SFT数据 + 2000单轮自我认知数据训练而来的大模型，数学能力相比Qwen1.5-7B-Chat提升了5.16%，在HumanEval数据集上相比Qwen1.5-7B-Chat提升了12.8，在MBPP数据集上提升了11.6%，在BBH数据集上提升了12.44%，全部评测表现见下表。

2024-04-11 16:01:59 839

原创 deepspeed使用zero3 + offload报错:AttributeError: ‘DeepSpeedCPUAdam‘ object has no attribute ‘ds_opt_adam

说是系统cuda和torch的cuda版本不匹配，我们直接改成不检查cuda版本。3、修改完后再次在命令行执行。输出以下内容表示大功告成。

2024-03-26 16:46:22 9696 15

原创 Facebook mms ASR 实践

先来看看mms（Massively Multilingual Speech）的介绍吧大规模多语言语音(MMS)项目通过建立一个支持超过1100种语言的单一多语言语音识别模型(比以前多10倍)，能够识别超过4000种语言的语言识别模型(比以前多40倍)，支持超过1400种语言的预训练模型，以及超过1100种语言的文本到语音模型，将语音技术从大约100种语言扩展到超过1000种。我们的目标是使人们更容易以他们喜欢的语言访问信息和使用设备。ASR支持4000多种语言，确实变态哈。

2024-03-03 18:36:17 739

原创 Fastwhisper + Pyannote 实现 ASR + 说话者识别

最近在研究ASR相关的业务，也是调研了不少模型，踩了不少坑，ASR这块，目前中文普通话效果最好的应该是阿里的modelscope上的中文模型了，英文的话，还是非whisper莫属了，而且whisper很变态，粤语效果也还不错，因此，如果实际业务中需要涉及到不同的语言，还是更推荐whisper多一点faster-whisper是使用CTranslate2对OpenAI的Whisper模型的重新实现，CTranslate2是一个用于Transformer模型的快速推理引擎。

2024-03-03 18:08:22 11075 14

原创 LLM之Agent再探

LLM之Agent初探1、当业务中有大量的tool时，比如有上千个，这些tool的描述加起来，总长度已经大大超过了LLM的最大输入长度，即使能接受这么长的token，从attention机制来看，效果也好不到哪里去。2、在LLM完成指令时，这几千个tool也不是都会被用上，那些没被用上的tool，且没被使用的tool占了绝大部分，大量的没被使用的tool占着大部分输入的token，造成资源的浪费，且推理性能也会有所下降。基于以上两点考虑，尽量将与实际指令相关的tool加载进agent。

2024-01-05 16:03:03 1114

原创 LLM之Agent初探

1、tool description 非常重要，没有写好description，agent无法理解在什么情况下应该调用该tool2、输入参数的 description 非常重要，想要LLM生成给定格式的输入参数，可以给一些few shot样例3、agent本质还是prompt工程，极大程度上依赖于LLM的参数量。小模型无法理解prompt，无法生成给定格式的输入参数，导致tool函数不能被正常调用。

2024-01-02 17:47:20 1912

原创 MinHash + LSH去重

我这里的imap好像没起到作用，比单进程还慢，暂时未找到原因。对象时，也能使用多进程来优化速度。

2023-12-14 10:27:24 303

原创使用opencompass验证模型效果

参考其他模型的测试脚本，会发现其实是没给测试数据集。中的代码，但是我们配置好openai的key之后，直接运行。：参数应该是模型名称缩写的意思（如果我没理解错的话）：few shot拼接的模板，不加该参数效果会差很多。：参数是fastchat启动模型时设置的模型名称。：每秒请求的次数，根据自己服务的QPS来设置就好。没见什么报错后，开始测试我们自己的模型。了，我们使用的是自己的模型，所以设置为。，直接传prompt给模型作为输入，加。：设置为0就好了，使用贪心解码。好了，以上步骤完成后，执行。

2023-12-13 18:26:39 756

原创关于大模型在文本分类上的尝试

总共25个类别，在BERT上的效果是48%，数据存在不平衡的情况，训练数据分布如下：训练数据不多，4000左右1、Lora SFT效果要比全参SFT差不少2、在单一任务上，基于chat模型做微调要比基于base模型效果要好（多任务上的效果有待验证）3、NEFT确实有效，后续会在其他任务上也使用该方法。

2023-11-30 12:47:51 1253

原创 RAG之微调垂域BGE的经验之谈

随着大模型的爆火，很多垂域行业都开始使用大模型来优化自己的业务，最典型的方法就是RAG（检索增强生成）了。简单来说就是利用检索技术，找出与用户问题相关性最高的段落，再让LLM基于以上段落，去回答用户的提问。优快云问答机器人。只不过当时是在SBERT模型上微调，也取得了不错的效果。这里我们使用的基座模型是。1、领导要求提高10%以上，没有标注数据的情况下，感觉还是很难的2、各位大佬要是有想法，欢迎在评论区留言一起讨论。

2023-10-25 21:47:59 15687 35

原创 SentenceTransformer使用多GPU加速向量化

当我们需要对大规模的数据向量化以存到向量数据库中时，且服务器上有多个GPU可以支配，我们希望同时利用所有的GPU来并行这一过程，加速向量化。

2023-10-11 20:49:06 3816 1

原创 deepspeed多机多卡并行训练指南

7机14卡，每台服务器两张A800服务器只允许内网访问，不能连接外网因此，你需要先搞定如何离线配置训练环境真正跑过多机多卡训练的同学，应该能明白，这篇文章是有多细节了！毫不夸张地说，干货满满！

2023-08-31 23:56:30 4027 1

原创百川Dynamic NTK-ALiBi的代码实现：无需微调即可推理更长文本

NTK-ALiBiNTK-ALiBi：通过插值实现大模型ALiBi位置编码的长文本外推。

2023-08-27 15:38:13 1486

原创使用自己的领域数据扩充baichuan模型词表（其他模型也一样）

总的来说，扩充词表可以加快解码速度，对于对中文支持不太友好的模型（如llama），扩充词表还能提升模型在中文的表现。

2023-08-19 14:54:06 1027

原创大模型训练时间估算

使用激活重计算的一次训练迭代中，对于每个token，每个模型参数，需要进行。内存比较小时再开激活重计算，若内存充足则没必要开激活重计算了。

2023-08-12 11:41:12 2647

原创 ChatHome: Development and Evaluation of a Domain-Specific Language Model for Home Renovation

本文介绍了针对复杂的家居装修领域而设计的领域特定语言模型ChatHome的开发和评价。考虑到像GPT-4这样的大型语言模型(llm)的成熟能力以及对家庭装修的不断升级的迷恋，本研究通过生成一个专门的模型来调和这些方面，该模型可以产生与家庭装修领域相关的高保真度，精确的输出。ChatHome的新颖之处在于它的方法，在一个广泛的数据集上融合了领域自适应预训练和指令调整。该数据集包括专业文章、标准文档和与家庭装修相关的网络内容。这种双管齐下的策略旨在确保我们的模型能够吸收全面的领域知识并有效地处理用户查询。

2023-08-04 19:34:44 2129

原创增量预训练baichuan-13b-chat遇到的那些坑

增量预训练百川13b-chat

2023-07-30 11:24:56 2498 4

原创 Could not create share link. Missing file: /xxxx/frpc_linux_amd64_v0.2.

在当前目录按步骤执行。

2023-07-27 19:23:31 3553 1

原创 Could not create share link. Please check your internet connection or our status page: https://statu

【代码】Could not create share link. Please check your internet connection or our status page: https://statu。

2023-07-27 19:17:01 3935 6

原创 LoRA原理解析

随着模型规模的不断扩大，微调模型的所有参数（所谓full fine-tuning）的可行性变得越来越低。以GPT-3的175B参数为例，每增加一个新领域就需要完整微调一个新模型，代价和成本非常高！

2023-07-06 22:40:36 2598

原创 LLaMA及其子孙模型概述

Alpaca是Stanford用52k指令数据微调LLaMA 7B后得到的预训练模型，作者声称在单轮指令执行的效果上，Alpaca的回复质量和openai的text-davinci-003相当，但是Alpaca的参数非常少（微调一个7B的llama需要在8张A100 80G上训练3个小时，花费至少100美元）。为了更好的评估效果，我们使用了一个包含一千个样本和九个真实场景的评估集来测试各种模型，同时通过量化分析来提供有价值的见解，以便更好地促进开源聊天模型的发展。白泽提出的训练方法。

2023-06-22 22:45:40 2027 3

原创基于prefix tuning + Bert的标题党分类器

传统的fine-tuning是在大规模预训练语言模型(如Bert、GPT2等)上完成的, 针对不同的下游任务, 需要保存不同的模型参数, 代价比较高,解决这个问题的一种自然方法是轻量微调（lightweight fine-tunning），它冻结了大部分预训练参数，并用小的可训练模块来增强模型，比如在预先训练的语言模型层之间插入额外的特定任务层。适配器微调（Adapter-tunning）在自然语言理解和生成基准测试上具有很好的性能，通过微调，仅添加约2-4%的任务特定参数，就可以获得类似的性能。

2023-06-11 17:28:59 2227 2

fasttext图书分类数据集

深度学习图书分类数据集

深度匹配数据集、聊天数据集.zip

pycharm代码没有提示

关于蓝桥杯切面条的问题

怎么才能提高OCR的识别准确率

有没有什么办法可以识别文字的方向，将其转正

怎么从英文文本中提取出代码呢？求大佬解答