- 博客(799)
- 资源 (33)
- 收藏
- 关注
原创 轻量化大模型微调工具XTuner指令微调实战(上篇)
官网文档:https://xtuner.readthedocs.io/zh-cn/latest/index.html
2025-04-03 20:54:23
599
原创 大模型微调中遇到的问题集合
生成requirements.txt,pip freeze会将当前环境下所有的安装包都进行生成,再进行安装的时候会全部安装很多没有的包.耗时耗力。大模型的各种框架,包大都属于测试版,稳定性不够好,所以安装环境是一个令人头疼的事情。我们可以将安装好的环境导出为txt文件,到其他地方还原。
2025-04-01 21:50:58
138
原创 LLaMA Factory微调后的大模型在vLLM框架中对齐对话模版
llamafactory微调后的大模型效果与在vLLM中的问答效果,可能会出现不一致的情况,
2025-03-29 23:12:15
676
原创 将 Hugging Face(HF)模型转换为 GGUF(Guanaco General Universal Format)
将 Hugging Face(HF)模型转换为 GGUF(Guanaco General Universal Format)格式,通常需要借助llama.cpp工具。
2025-03-28 20:58:14
352
原创 QLoRA对大模型微调
lora秩 32--128之间,比如 64 推荐,lora缩放系数是 lora秩的2倍,比如 128。加速方式:flashattn2,或者auto。量化等级(启用量化QLoRA) :8位。autodl学术加速。
2025-03-25 23:32:54
749
原创 Ollama、vLLM和LMDeploy这三款主流大模型部署框架
LMDeploy 开发了 Persistent Batch(即 Continuous Batch),Blocked K/V Cache,动态拆分和融合,张量并行,高效的计算 kernel等重要特性。推理性能是 vLLM 的 1.8 倍LMDeploy 支持权重量化和 k/v 量化。4bit 模型推理效率是 FP16 下的 2.4 倍。量化模型的可靠性已通过 OpenCompass 评测得到充分验证。通过请求分发服务,LMDeploy 支持多模型在多机、多卡上的推理服务。
2025-03-24 11:49:56
670
原创 LLaMA Factory对大模型微调和导出量化操作
14、输出目录:会自动生成一个路径,要确保每次的目录都不相同,若已存在,则需要去服务器上删除,目录在llamafactory-save目录下。11、截断长度:长度越长越占显存,根据样本里的文本长度,大部分数据的最大长度值即可,比如,有90%的样本数据的长度是200,这里填写200.12、批处理大小:超参数,需要根据你服务器的配置,尝试运行几次,找到资源利用率最高的数值。4、对话模板:不同的模型对应的对话模板是不一样的。3、检查点路径:训练过程中保存的权重,可从其中的一个权重重新训练。
2025-03-21 23:01:06
1177
原创 基于Bert模型的增量微调2-数据集
对大模型进行增量微调,样本数据是非常重要的环境,样本数据的来源有几种:1、网上公开的数据集,比如 hugging face平台的datasets。2、在企业中,一般都是需求方(甲方)提供数据集。
2025-03-13 13:19:07
556
原创 基于Bert模型的增量微调1-模型下载和使用
bert-base-chinese模型:https://huggingface.co/google-bert/bert-base-chinese
2025-03-12 23:27:16
318
原创 Hugging Face 核心组件介绍
hugging face的核心组件 主要是 Transformers 和Datasets。使用代码下载模型到本地,代码演示使用depeek-r1-1.5b,小一点。等待大概几分钟就下载完成了,主要看网速。#下载模型#下载分词工具print(f"模型和分词器已下载到:{cache_dir}")AutoModelForCausalLM 是 Hugging Face 的 Transformers 库中的一个类,主要用于处理因果语言模型(Causal Language Model)任务。
2025-03-07 10:07:29
1212
原创 Python中字符串的常用操作
在 Python 中,字符串前加r(即r"string"或r'string')表示创建一个原始字符串(raw string)。下面详细介绍原始字符串的特点、使用场景及与普通字符串的对比。
2025-03-01 23:03:22
413
原创 LangChain 技术入门指南:探索语言模型的无限可能
LangChain 是一个为构建语言模型应用提供丰富功能和组件的框架。它旨在解决在利用语言模型时面临的诸多技术挑战,如数据处理、上下文管理、多模型集成等。LangChain 为语言模型的应用开发提供了强大的技术支持。通过理解其核心概念,并进行实际的编码实践,您已经迈出了掌握这一技术的重要一步。不断探索和创新,您将能够开发出更加智能和实用的语言模型应用。相关网址(后续将持续输出关于LangChain的技术文章,有兴趣的同学可以关注我们!
2025-02-20 09:37:25
757
原创 大模型开发实战篇7:语音识别-语音转文字
语音识别大模型,是人工智能领域的一项重要技术,它能够将人类的语音转换为文本。近年来,随着深度学习技术的不断发展,语音识别大模型取得了显著的进展,并在各个领域得到了广泛应用。目前,市面上涌现出许多优秀的语音识别大模型,它们在性能、功能和应用场景上各有侧重。
2025-02-17 23:30:26
2041
原创 大模型开发实战篇6:文字配音模型 Text-To-Speech(TTS)
Text-To-Speech(TTS)文字配音模型是一种用于将文本信息转换成自然语音的技术。OpenAI的文字配音 API 提供了一个基于 TTS(文本到语音)模型的服务。alloyashcoralechofableonyxnovasageshimmer默认响应格式是 "mp3",但也支持其他格式,如 "opus"、"aac"、"flac" 和 "pcm"。TTS 模型在语言支持方面通常遵循 Whisper 模型。
2025-02-17 15:53:10
937
原创 大模型开发实战篇5:多模态--文生图模型API
今天我们来看下如何调用WebAPI来实现文生图功能。我们一般都会将OpenAI的接口,因为OpenAI是标杆,其他大模型都以它为参考,并且很多大模型的接口都复刻了OpenAI的接口,不管是接口形式还是参数定义基本都一样;也就是只要学会了OpenAI的接口,很多其他大模型也就会调用了。
2025-02-16 23:07:11
1364
原创 AI大模型文生图初识和体验,真的太 惊艳了
大模型文生图是一种基于人工智能大模型的技术,能够将自然语言文本描述转化为对应的图像。目前非常火的AI大模型赛道,有很多公司在此赛道竞争,大模型技术也非常牛叉,既有像OpenAI、谷歌Gemini、智普等多模态的公司,也有专攻文生图的公司,比如Stability,MidJourney。
2025-02-16 21:24:13
712
原创 大模型开发实战篇4:多模态之图片识别
在人工智能领域,指的是数据的不同形式或类型,例如文本、图像、音频、视频等。则意味着模型能够处理和理解多种不同模态的数据。指的是那些能够处理和理解多种模态数据的大型人工智能模型。这些模型通常基于深度学习技术,通过学习不同模态数据之间的关联和规律,从而实现更强大的功能。
2025-02-16 17:06:04
1036
原创 大模型开发实战篇3:函数调用FunctionCall
函数调用功能可以增强模型推理效果或进行其他外部操作,包括信息检索、数据库操作、知识图谱搜索与推理、操作系统、触发外部操作等工具调用场景。注:市面上的大模型几乎都支持函数调用,不过其稳定性不是很好,有时候无法命中函数。OpenAI的函数调用在使用中会发现对中文的理解不够精准,DeepSeek对函数的支持也不够稳定。各大模型对英文的支持度都比较好,比中文的理解更精准。函数调用功能,测试下来发现智谱大模型最优秀,不管是中文还是英文都能命中函数。
2025-02-13 09:38:16
1370
原创 DeepSeek本地安装太简单了,人人都会操作
AI人工智能软件DeepSeek近期真的很火,功能强大而且免费开源,任何个人和公司都可以安装使用,甚至是商用。它可以在你的个人电脑上安装部署,而且安装操作相当简单,可以说看完这篇后,人人都会安装。支持各种操作系统:Windows,MacOS,Linux。安装部署仅需3步:1、安装Ollama,2、在Ollama里安装运行DeepSeek-R1,3、安装ChatBox并且配置DeepSeek。废话不多说,详细步骤如下。
2025-02-13 08:49:20
1176
原创 大模型开发实战篇2:调用DeepSeek的对话接口-最佳实践
我们针对system角色设置内容,也是一种提示词设置方法,只有不断地测试不同的方式,才能更大程度的挖掘大模型的能力。
2025-02-11 21:36:29
847
原创 大模型开发实战篇1:调用DeepSeek的对话接口
很多AI产品对外的接口都复用了OpenAI公司的接口WebAPI,DeepSeek、智谱等也是如此。因此,只要学会OpenAI的接口,其他AI产品也就学调用了。我们就从OpenAI的接口来作为切入点学习。对话接口也是聊天机器人, 在网页上与chatgpt类似的效果。OpenAI的接口是WebAPI形式的Rest API接口,并且还提供了各种常用语言的SDK,比如Python,Java,.Net,Javascript。这些SDK也同样完全适用于DeepSeek和智谱。本教程以Python作为开发语言。
2025-02-11 11:13:18
2067
4
原创 AI人工智能DeepSeek到底是什么?它是软件系统吗?
ChatGPT,DeepSeek等众多知名的AI人工智能彻底改变了世界。那么这些人工智能到底是什么东西呢?它到底是软件,还是什么?其实很多人只知道它们很牛,功能非常强大,但是不知道它们到底是什么,包括很多程序员都很疑惑,它到底是不是软件系统?到底有没有用数据库,有没有提供API接口可以调用。今天我们就来解惑一下。
2025-02-04 10:04:12
2126
原创 AI大模型开发原理篇-9:GPT模型的概念和基本结构
输入嵌入:输入的文本(如一句话)首先通过词嵌入层转换为向量,然后加上位置编码,以保留单词的顺序信息。解码器堆叠:GPT使用多个解码器层进行堆叠。每个解码器层都会处理前一层的输出,并在此基础上生成更高层次的表示。生成下一个词:解码器的输出通过softmax层转换为词汇表中每个词的概率分布,选择最大概率的词作为下一个生成的词。Transformer架构:核心结构,特别是解码器部分。自回归生成:基于前文生成下一个词,逐步生成文本。输入嵌入和位置编码:将词汇转化为向量,保留顺序信息。多层自注意力机制。
2025-01-30 22:19:00
764
原创 AI大模型开发原理篇-8:Transformer模型
Transformer的作用可以总结为:它通过自注意力机制提升了对长程依赖的建模能力,并行化计算大大提高了训练速度,多头注意力增强了信息捕捉能力,而位置编码解决了序列中元素顺序的问题。这些特性让Transformer在自然语言处理、计算机视觉等领域产生了深远的影响,成为了目前许多前沿AI技术的核心架构。
2025-01-30 17:04:55
363
原创 AI大模型开发原理篇-7:注意力机制Attention Mechanism
他们3人对这篇文章的注意力都不一样,小A只关注“原理”,忽略其他非“原理”的,小B只关注“成语典故”,忽略其他信息。虽然他们设计出来就有天生的不可磨灭的偏重性,但是女生也有喜欢打游戏的呀,所以也可能会买电竞椅,因为女性和女性是不同的,这个不同就是Q。聚焦的过程体现在【权重系统】的计算上,权重越大越聚焦于其对应的Value值上,即权重代表了信息的重要性,而Value是其对应的信息。每个家具的设计理念不同,有些可能主打服务女性,比如化妆台,有些可能主打服务男性,比如电竞椅,这些主打的偏重性就是家具的K。
2025-01-30 16:48:54
375
原创 AI大模型开发原理篇-6:Seq2Seq编码器-解码器架构
Seq2Seq架构的全名是“Sequence-to-Sequence”,简称S2S,意为将一个序列映射到另一个序列。q2Seq编码器-解码器架构,这也是Transformer的基础架构。Seq2Seq架构是一个用于处理输入序列和生成输出序列的神经网络模型,由一个编码器和一个解码器组成。从直观上理解,这种架构就是将输入序列转换成一个固定大小的向量表示,然后将该向量表示转换成输出序列。
2025-01-30 16:44:20
529
原创 AI大模型开发原理篇-5:循环神经网络RNN
神经概率语言模型NPLM也存在一些明显的不足之处:模型结构简单,窗口大小固定,缺乏长距离依赖捕捉,训练效率低,词汇表固定等。为了解决这些问题,研究人员提出了一些更先进的神经网络语言模型,如循环神经网络、长短期记忆网络、门控循环单元(GRU)和Transformer等。这些模型能够捕捉长距离依赖,处理变长序列,同时具有更强的表达能力和泛化能力。RNN 的主要特点是。与标准神经网络不同,RNN 在每一时刻的输出不仅依赖于当前的输入,还依赖于前一个时刻的隐藏状态(或称为记忆)。
2025-01-30 16:17:05
961
原创 AI大模型开发原理篇-4:神经概率语言模型NPLM
是一种基于神经网络的语言建模方法,它将传统的语言模型和神经网络结合在一起,能够更好地捕捉语言中的复杂规律和上下文依赖。
2025-01-30 12:02:26
1422
原创 AI大模型开发原理篇-3:词向量和词嵌入
词向量是用于表示单词意义的向量, 并且还可以被认为是单词的特征向量或表示。将单词映射到实向量的技术称为词嵌入。在实际应用中,词向量和词嵌入这两个重要的NLP术语通常可以互换使用。它们都表示将词汇表中的单词映射到固定大小的连续向量空间中的过程。这些向量可以捕捉词汇的语义信息。
2025-01-29 22:57:25
1141
原创 AI大模型开发原理篇-2:语言模型雏形之词袋模型
词袋模型(Bag of Words,简称 BOW)是自然语言处理和信息检索等领域中一种简单而常用的文本表示方法,它将文本看作是一组单词的集合,并忽略文本中的语法、词序等信息,仅关注每个词的出现频率。词袋模型会将这两个句子表示成如下的向量。{"沐雪": 1, "喜欢": 1, "吃": 1, "葡萄": 1}{"葡萄": 1, "是": 1, "沐雪": 1, "喜欢": 1, "的": 1, "水果": 1}
2025-01-29 22:19:52
1384
原创 AI大模型开发原理篇-1:语言模型雏形之N-Gram模型
N-Gram模型是一种基于统计的语言模型,用于预测文本中某个词语的出现概率。它通过分析一个词语序列中前面N-1个词的出现频率来预测下一个词的出现。具体来说,N-Gram模型通过将文本切分为长度为N的词序列来进行建模。: 仅依赖于当前词的概率。例如,给定一个句子“我 爱 自然语言”,它将被切分为“我”,“爱”,“自然语言”三个独立的词。: 使用前一个词来预测下一个词。例如,在句子“我 爱 自然语言”中,Bigram模型将考虑“我 → 爱”和“爱 → 自然语言”两个词对的概率。: 使用前两个词来预测下一个词。
2025-01-29 20:37:23
802
原创 mybatis连接PGSQL中对于json和jsonb的处理
TableField(typeHandler = PGJsonbTypeHandler.class) // 用于 PostgreSQL 的 JSONB 类型。pgsql数据库表字段设置了jsonb格式;
2024-11-07 19:28:35
667
1
原创 银河麒麟操作系统Kylin Linux 离线安装Nginx1.21.5
银河麒麟操作系统的rpm包必须从官方找, 要是随便找个Centos的rpm包,可能会产生不兼容,甚至会把服务器搞挂掉。是V10 SP3版本,根据这个版本 去官网找对应的rpm包。下载好后,上传到服务器。这个是sp3的所有基础包,一、查看操作系统版本号。
2024-04-01 16:54:21
2154
原创 c# json字符串转Oracle的insert into的小程序
【代码】c# json字符串转Oracle的insert into的小程序。
2024-02-06 10:36:26
1052
1
TortoiseGit 汉化包 git工具最新的git傻瓜式操作界面工具
2020-02-20
免费的制作gif_简单实用的GIF动图制作工具
2020-01-04
使用Hyperledger Composer开发区块链应用
2017-11-23
区块链|超级账本HyperLedger 入门基础讲解ppt
2017-09-21
ftp上传工具--LeapFTP
2011-12-29
winform换肤源码
2010-04-23
PowerDesigner的数据库设计与实现 PowerDesigner数据库建模技术
2010-03-11
jQuery 1.4.1 中文文档 CHM 版
2010-02-02
jQuery 的VS2008插件
2010-01-20
图形化硬盘分区软件 硬盘分区工具
2009-11-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人