
大模型
文章平均质量分 84
jieshenai
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
杨耀东老师在ICML2025上对齐教程:《语言模型的对齐方法:一种机器学习视角》
杨耀东老师在ICML2025会议上分享了《语言模型的对齐方法:一种机器学习视角》教程。百度网盘PPT链接原创 2025-07-17 21:43:39 · 282 阅读 · 0 评论 -
llamafactory SFT 从断点恢复训练
手动恢复训练可通过修改resume_from_checkpoint参数实现,但为减轻手动负担,编写了自动恢复训练的Shell脚本。原创 2025-05-16 22:07:41 · 1496 阅读 · 0 评论 -
大模型SFT有监督微调教程
前一篇文章 [大模型预训练代码实战教程],介绍了大模型预训练的过程。有监督微调与预训练的代码流程基本一致,唯一的区别就是不对用户输入部分计算loss。本篇相比前一篇大模型预训练的文章,主要介绍如何把指令部分对应的label设置为-100。原创 2025-02-22 17:04:05 · 1234 阅读 · 0 评论 -
大模型预训练代码实战教程
不使用现成的微调工具,使用Transformers库的AutoTrain进行自定义微调。通过构造适合大模型的数据集和数据模板,并讲解了如何处理输入文本、标签和填充符号。原创 2025-02-21 16:14:05 · 1238 阅读 · 0 评论 -
大模型损失函数计算之中的 pad 介绍
首先以框图的形式介绍大模型的损失函数的计算过程。由于在大模型损失函数计算过程中,用到了 pad ,故介绍一下pad方法的用法。原创 2025-02-17 15:48:39 · 967 阅读 · 0 评论 -
基于 LlamaFactory 微调大模型的实体识别的评估实现
利用 LlamaFactory 框架微调大语言模型完成实体识别任务。在实体识别评估中,采用实体边界完全匹配方可计为正确结果。代码实现包括分类评价指标的计算(准确率、召回率与 F1 值)。原创 2024-12-06 16:15:26 · 872 阅读 · 0 评论 -
使用 LlamaFactory 结合开源大语言模型实现文本分类:从数据集构建到 LoRA 微调与推理评估
使用 LlamaFactory 框架结合开源大语言模型完成文本分类实验。以 LoRA 微调 `qwen/Qwen2.5-7B-Instruct` 为例,涵盖了数据集构建、模型配置与训练、以及推理与评估的完整流程。并提供了基于生成式预测的文本分类评估代码。原创 2024-12-06 15:45:50 · 2196 阅读 · 0 评论 -
基于 LLamafactory 的异步API高效调用实现与速度对比
通过异步方式调用大语言模型 API的方法,相较于传统同步调用方式,显著提升了推理效率。文章展示了如何利用 LLamafactory 原生数据加载工具和自定义异步工具类 AsyncAPICall 实现批量数据推理,避免程序崩溃时数据丢失。通过实验对比,异步调用比同步调用速度提升了约 9.41 倍。原创 2024-12-01 23:23:05 · 1580 阅读 · 0 评论 -
基于 LlamaFactory 的 LoRA 微调模型支持 vllm 批量推理的实现
本文介绍了如何通过 LlamaFactory 原生数据集,实现支持 LoRA 微调模型的 vllm 批量推理。提供了完整代码实现和配置示例,展示了使用 vllm 加速推理的方式。测试结果表明vllm推理代码提升了推理效率。原创 2024-11-29 10:57:46 · 3125 阅读 · 10 评论 -
LLamafactory 批量推理与异步 API 调用效率对比实测
本文通过构建数学运算数据集,测试了 LLamafactory 的两种大模型推理方式——批量推理和异步 API 调用,并对两者的速度进行了对比分析。结果显示,LLamafactory 的批量推理由于不支持 vllm,速度较慢,完成 100 条数据推理耗时 4 分 42 秒;而异步 API 调用仅用时 14 秒,效率显著更高。结合 LLamafactory 微调和 API 部署,以及异步调用 API,以达到快速推理的目的,并提供了项目的开源代码供读者参考。原创 2024-11-26 22:51:04 · 3244 阅读 · 0 评论 -
LLamafactory API部署与使用异步方式 API 调用优化大模型推理效率
介绍了如何利用 LLamafactory 将微调后的 LoRA 模型部署为 API 服务,并通过 Python 异步调用实现高效请求处理。文章详细阐述了异步工具类封装的流程,同时以生成数学计算数据集为案例,展示了如何批量调用大模型 API 并优化性能。针对可能出现的服务器拒绝响应和程序崩溃问题,本文提出了分块处理与断点续跑机制。附有代码示例与项目开源地址供读者参考实践。原创 2024-11-27 10:13:41 · 4378 阅读 · 3 评论 -
千问 Qwen2.5-7B-Instruct 模型微调后“变身”Claude:是前世记忆还是数据版权?
在微调 Qwen2.5-7B-Instruct 的过程中,竟在短短5个epoch后,声称自己是Anthropic的 Claude。这是偶然的Bug,还是潜在的数据安全隐患?从技术原因到品牌形象的深远影响,这个事件值得每一位AI开发者深思。原创 2024-11-26 10:19:48 · 934 阅读 · 0 评论 -
llama-factory 系列教程 (七),Qwen2.5-7B-Instruct 模型微调与vllm部署详细流程实战
介绍了如何使用该工具进行模型的微调和部署,内容涵盖工具的安装、模型下载、数据集准备、Lora 微调方法、命令行与 YAML 文件配置的训练流程,以及推理测试与多种部署方式。文章以实验流程为线索,结合图文演示,快速上手并高效完成 LLaMA-Factory 的实际应用。原创 2024-11-25 15:42:16 · 10436 阅读 · 4 评论 -
大模型 API 异步调用优化:高效并发与令牌池设计实践
本文探讨了大模型 API 调用中速度优化的关键技术。通过结合 Python 的异步编程和令牌池设计,能够显著提高并发任务处理效率,同时避免因频率过高导致封号。文章从基础异步实现、限速机制、进度条展示到多令牌池优化方案,提供了详细的代码示例和实践建议,并应用于大模型四则运算任务中,展示了异步调用的显著性能提升。原创 2024-11-19 15:45:12 · 3299 阅读 · 0 评论 -
vllm 部署GLM4模型进行 Zero-Shot 文本分类实验,让大模型给出分类原因,准确率可提高6%
本文记录了使用 vllm 部署 GLM4-9B-Chat 模型进行 Zero-Shot 文本分类的实验过程与结果。通过对 AG_News 数据集的测试,研究发现大模型在直接进行分类时的准确率为 77%。然而,让模型给出分类原因描述(reason)后,准确率显著提升至 83%,提升幅度达 6%。这一结果验证了引入 reasoning 机制的有效性。文中详细介绍了实验数据、提示词设计、模型推理方法及评估手段。原创 2024-08-23 16:33:11 · 1539 阅读 · 0 评论 -
gpt-4o-mini 等大模型的第三方中转API接口教程
摘要:本文介绍了如何在Python环境中使用gpt-4o-mini模型,包括Anaconda的安装与配置、创建新的Python虚拟环境、安装langchain与openai相关包、接入OpenAI API(包括使用第三方API站点以规避地域限制)的方法。详细步骤涵盖了环境变量的设置、API密钥的管理、模型调用的代码示例及消费估算。此外,还提供了优化大模型使用效率的建议,如使用多线程、令牌池,以及编写有效提示词的重要性。最后,推荐了相关教程和提示词编写技巧,旨在帮助读者更好地利用大模型进行自然语言处理任务。原创 2024-08-21 13:10:09 · 5830 阅读 · 4 评论 -
使用大模型从政府公文中抽取指标数据
本文介绍了利用LangChain结合Ollama的qwen2:7b模型,从政府工作报告中高效提取全国市级单位年度生产总值增长指标。通过精准文本筛选、few-shot提示和结构化输出,实现了快速准确的数据抽取。实验表明,qwen2模型虽小但性能优异,展现出大模型在自然语言处理中的强大能力。同时,文章还对比了不同模型的优劣势,提供了一些优化建议。原创 2024-08-14 23:44:51 · 1461 阅读 · 0 评论 -
LangGraph 自定义工具调用,大模型使用加法和乘法工具的工作流实现
文章提出了采用few-shot学习的方法,通过给大模型提供几个示例来激活其工具调用能力,而非进行复杂的微调。文章通过构建工作流结构,包括llm节点(生成工具调用和结果输出)和action节点(运行工具调用并输出结果),展示了自动化实现工具调用和结果处理的流程。工作流的优势在于能够简化流程,自动处理大模型输出、工具调用及结果反馈的循环。原创 2024-08-14 20:40:22 · 4229 阅读 · 3 评论 -
glm4-9B-chat,使用提示工程激活模型最大潜力
作者探讨了如何通过提示词优化大模型的文本生成能力,特别是通过使用Ollama和LangChain来增强细节丰富度和生成范围。文章介绍了GLM4-9B模型的独特性,尤其是其能通过巧妙提示词实现广泛的文本生成能力。作者还分享了一些实用的提示工程技巧,如何引导模型绕过拒答并生成所需内容。原创 2024-08-13 10:18:34 · 1031 阅读 · 0 评论 -
利用langchain 做大模型 Few-shot Learning 提示,包括固定和向量相似的动态样本筛选
本文介绍了Few-shot Learning,相对于大模型微调,通过提供少量样本示例来提升模型在特定任务上的表现。固定样本提示每次使用相同的示例,而动态样本提示则根据当前任务选择相似的示例。通过示例代码展示了如何在LangChain中实现固定和动态样本提示,以及如何利用向量相似度算法选择最相似的样本进行推理,从而提高模型性能。原创 2024-08-01 20:00:15 · 1426 阅读 · 0 评论 -
llama-factory 系列教程 (六),linux shell 脚本自动实现批量大模型的训练、部署与评估
使用linux shell 脚本,自动化批量处理大模型的微调、部署与评估。无需人工逐个交互处理,减少人工的精力和时间。原创 2024-07-31 22:18:15 · 2132 阅读 · 0 评论 -
llama-factory 系列教程 (五),SFT 微调后的模型,结合langchain进行推理
使用Llamafactory微调模型后,完成vllm的API本地部署,再利用 langchain 工具进行推理。原创 2024-07-30 21:49:15 · 1687 阅读 · 0 评论 -
langchain使用jina-embeddings构建Chroma向量库,解决加载模型初始化失败
使用 `{"trust_remote_code":True}` 传递给 langchain_community.embeddings 的 SentenceTransformerEmbeddings ,逐步解析 `jinaai/jina-embeddings-v2-base-en` 编码模型初始化加载异常的问题。原创 2024-07-28 11:47:14 · 1247 阅读 · 0 评论 -
阿里云盘 PAI,免费三个月的GPU资源领取,适合缺卡的学生
白嫖阿里云人工智能平台PAI三个月 :上传的数据集、文件、Python 环境会一直存在,关机之后不会删除;原创 2024-04-22 13:28:01 · 1115 阅读 · 0 评论 -
llama-factory SFT 系列教程 (四),lora sft 微调后,使用vllm加速推理
首先使用 llama-factory 微调,得到微调后的 lora 权重;由于 vllm 并没有支持所有的模型;故通用的方式是 将 lora 权重和大模型融合成新的大模型,再由 vllm 推理;在使用 alpaca 样式的数据集微调时,llama-factory 框架在训练时,会自动在prompt 添加 template。所以,在微调大模型后,使用vllm推理时,也要给 vllm 传入 封装好的template。原创 2024-04-20 21:56:05 · 15483 阅读 · 20 评论 -
大模型预测结果导入到Doccano,人工修正预测不准的数据
展示大模型预测输出的数据格式;展示Doccano 命名实体识别导入的数据集格式;提供将大模型输出数据转为Doccano 导入数据集格式代码;原创 2024-04-17 12:41:23 · 675 阅读 · 0 评论 -
llama-factory SFT系列教程 (三),chatglm3-6B 大模型命名实体识别实战
利用 llama-factory 框架,基于 chatglm3-6B 模型 做命名实体识别任务;原创 2024-04-12 23:42:04 · 3461 阅读 · 13 评论 -
llama-factory SFT系列教程 (二),大模型在自定义数据集 lora 训练与部署
本文为 llama-factory SFT系列教程的第二篇;实现了在自定义数据集上 lora 微调大模型;接着融合lora权重进行大模型推理的功能原创 2024-04-12 17:28:56 · 21737 阅读 · 12 评论 -
llama-factory SFT系列教程 (一),大模型 API 部署与使用
llama-factory 教程,实现大模型 api 部署;使用 llama_factory 的 API 部署有 vllm加速推理;原创 2024-04-11 22:40:59 · 15011 阅读 · 27 评论 -
vllm 本地大模型加速推理
使用 modelscope 的 chatglm3-6B,调用 vllm 加速推理,推理速度快很多;我的显卡显存为 24G;chatglm3-6B,如果不用vllm,我的显存不够,必须使用half才能放进显存;使用 vllm 后,vllm 加载的大模型模型权重占用空间会小一点;不使用half,恰好能放进我的显存空间;原创 2024-04-11 12:37:41 · 3408 阅读 · 9 评论 -
使用向量检索和rerank 在RAG数据集上实验评估hit_rate和mrr
使用 向量检索 和 rerank 在给定RAG评估数据集上的实验计算 hit_rate 和 mrr;对比了使用 rerank 和 不使用 rerank的实验结果;基于RAG评估数据集,构建nodes节点;构建自定义的检索器,在检索器中实现 向量检索和 rerank;原创 2024-04-06 22:16:17 · 2068 阅读 · 16 评论 -
大模型生成RAG评估数据集并计算hit_rate 和 mrr
本文使用大模型自动生成RAG 问答数据集。使用BM25关键词作为检索器,然后在问答数据集上评估该检索器的效果。输入是一篇文本,使用llamaindex加载该文本,使用prompt让大模型针对输入的文本生成提问。l利用 chatglm3-6B 构建CustomLLM;使用prompt和chatglm,结合文本生成对应的问题,构建RAG问答数据集;构建基于关键词的检索器;评估在数据集上的结果;原创 2024-04-05 17:53:27 · 2845 阅读 · 7 评论 -
llama-index 结合chatglm3-6B 利用RAG 基于文档智能问答
使用llama-index结合m3e、chatglm3-6B 基于RAG做智能问答原创 2024-03-28 10:44:16 · 2382 阅读 · 0 评论 -
本地qwen 大模型,基于FastAPI构建API接口使用
使用modelscope 下载千问7B模型,利用FastAPI部署成在线的API接口;使用history历史对话多轮问答数据,实现多轮对话;原创 2024-03-27 23:13:32 · 4123 阅读 · 4 评论 -
基于m3e编码模型的RAG 向量相似检索
使用m3e编码模型,利用modelscope下载模型权重。使用langchain的faiss API ,构建向量库,计算用户输入文本与向量库中文本的相似度。原创 2024-03-19 09:46:00 · 1280 阅读 · 0 评论