
深度学习速通系列
文章平均质量分 59
快速学通深度学习
Ven%
神明的拷问
展开
-
dify内置数据库PostgreSQL的时间字段的值跟当前时间对不上,如何解决?
•核心问题:时间偏差通常由字段类型不带时区(TIMESTAMP)或数据库时区设置错误导致。•推荐方案:优先使用类型并设置默认值为,依赖 PostgreSQL 自动处理时区转换。•兼容性处理:若必须使用无时区字段,需在默认值或触发器中显式转换时区。原创 2025-03-17 15:28:40 · 882 阅读 · 0 评论 -
dify接入语音转文本模型后报错: microphone not authorized
遇到microphone not authorized莫慌,这是因为没有获取到设备的麦克风权限导致的。3.1谷歌浏览器在设置里找到隐私与安全,找到dify聊天机器人的网站,将麦克风权限打开。这样就可以在谷歌里打开dify聊天机器人网站使用语音输入来聊天了!3.打开设备麦克风权限:(能快速验证语音输入功能)3.2在系统的设置里,找到隐私和安全性,找到麦克风。解决方法:(三种选其一,我实际使用的是第三种)2.接入的前端增加获取麦克风权限的功能。找到谷歌,将谷歌的麦克风权限打开。原创 2025-02-28 18:12:37 · 2087 阅读 · 0 评论 -
大模型生成文本控制参数:Top-k Top-p和Temperature(超级易懂,看一眼就学废)
温度调低(比如0.2):AI会变成保守派,总选最稳妥的回答(适合写说明书、正经文案)温度调高(比如1.0):AI就变戏精,各种天马行空(适合编故事、写段子)设小值(比如10):AI只能在10个最合适的词里挑(回答更靠谱)写天气预报 → 低温(0.3)+ 小候选名单(Top-k=10)设低值(0.5):只保留概率最高的前50%候选词(回答更集中)设高值(0.95):允许更多"可能中奖"的词加入(回答更跳跃)设大值(比如50):AI能考虑50个可能的词(回答花样更多)Top-k(候选词数量)原创 2025-02-27 11:51:07 · 349 阅读 · 0 评论 -
xinference接入dify报错了,原因竟然是.....
一开始以为dify是docker部署的,翻阅了一些资料,docker内部会出现访问不到宿主机的服务.所以后面将Xinference也docker部署了,还是报错。xinference接入dify,报错HTTPConnectionPool。后面找到原因了,竟然是ufw防火墙没有给9997端口通行…原创 2025-02-11 19:58:59 · 771 阅读 · 0 评论 -
Xinferece如何快速部署,以及如何部署reranker(小白教程,快速上手)
第五步 找到对模型进行重新排序,然后搜索reranker模型 点击下载(其他类型的模型同理)第四步 看不懂英文没关系,右键空白处,选择翻译为中文。第三步 在edge浏览器的地址栏里输入。下载依赖需要一些时间。访问,直接有一个界面。原创 2025-02-10 17:42:32 · 556 阅读 · 0 评论 -
LLaMA Pro是什么 相比于lora full freeze有什么区别 怎么使用
LLaMA Pro 通过模块扩展和部分微调,解决了大模型微调中的知识遗忘问题,适合复杂任务和持续学习场景。相比于 LoRA、Full 和 Freeze 微调,LLaMA Pro 在性能和任务适应性上更具优势,但计算成本较高。用户可以根据具体需求选择合适的微调方法。原创 2025-01-16 16:25:52 · 383 阅读 · 0 评论 -
全参微调需要多大的数据量?使用全参微调是不是不需要原本的预训练模型?或者说,只需要一个模型结构就可以了
数据量需求全参微调需要较大的数据量,尤其是对于大型模型。如果数据量有限,可以考虑部分微调或其他参数高效微调方法。预训练模型的作用全参微调必须依赖预训练模型,不能仅凭模型结构。预训练模型提供了通用的特征表示,是微调成功的关键。如果你没有预训练模型,只有模型结构,那么你需要从头训练模型,这通常需要非常大的数据集和计算资源,且效果可能不如基于预训练模型的微调。原创 2025-01-14 11:03:54 · 190 阅读 · 0 评论 -
全参微调会不会将模型原本的参数改变了呢?
全参微调会改变模型原本的参数,使其更好地适应新任务,但也可能带来一些副作用(如灾难性遗忘)。是否选择全参微调,取决于任务需求、数据规模和计算资源。如果希望保留预训练模型的通用特征,可以考虑部分微调或其他参数高效微调方法(如LoRA、Adapter等)。原创 2025-01-14 11:02:46 · 104 阅读 · 0 评论 -
全参微调到底还是不是微调???
全参微调是微调的一种形式,适用于需要模型高度适应特定任务的场景。而部分微调则更适合资源有限或任务与预训练任务相似的情况。选择哪种方式取决于具体的任务需求、数据规模和计算资源。原创 2025-01-14 11:01:27 · 242 阅读 · 0 评论 -
freeze微调参数解释:可训练层数 2;可训练模块 all
可训练层数: 2(最末尾)表示最后 2 层隐藏层是可训练的。可训练模块: mlp 表示只有这些层中的 mlp 模块会参与训练。参与训练的部分:最后 2 层隐藏层中的每一层中的 mlp 模块。通过这种配置,模型会微调最后 2 层的 mlp 模块,而其他模块和层会被冻结。这种配置适合需要精细控制微调范围的场景,例如:任务与预训练任务相似,只需微调少量参数。计算资源有限,希望减少训练参数数量。原创 2025-01-09 11:04:15 · 97 阅读 · 0 评论 -
Transformer Layer的核心模块:input_layernorm, self_attn, post_attention_layernorm,mlp
在。原创 2025-01-09 10:59:55 · 164 阅读 · 0 评论 -
torch环境冲突:AttributeError: module ‘torch.library‘ has no attribute ‘register_fake‘
torch环境冲突:AttributeError: module 'torch.library' has no attribute 'register_fake'原创 2025-01-07 11:49:52 · 4174 阅读 · 0 评论 -
如何让后台运行llamafactory-cli webui 即使关掉了ssh远程连接 也在运行
要在关闭 SSH 远程连接后继续运行nohup是一个常用的工具,可以让进程在关闭终端后继续运行。原创 2025-01-03 19:51:16 · 1975 阅读 · 0 评论 -
深度学习中的步数指的是什么
是指模型参数更新的次数。每次参数更新通常对应一个或多个批次的梯度计算和优化器更新。由于步数必须是整数,通常会向下取整,因此总步数为。(可能是日志中省略了小数部分,或者有其他调整)。:每次输入模型的样本数量。:模型参数更新一次。原创 2025-01-03 17:19:27 · 601 阅读 · 0 评论 -
llamafactory报错:双卡4090GPU,训练qwen2.5:7B、14B时报错GPU显存不足(out of memory),轻松搞定~~~
使用llamafactory进行微调qwen2.5 7B和14B的大模型时,会出现out of memory的报错。尝试使用降低batch_size(原本是2,现在降到1)的方式,可以让qwen2.5:7B跑起来,但时不时会不稳定,还是会报这个错误;微调14B的话,直接就报错了,根本跑起来。(显卡配置为两张23G的4090显卡,显存一共46G)目测lora微调显存的大小是模型本身大小的3倍以上,才能正常跑起来。注: 若不知道这个配置的代表什么含义的话,可以看这一篇。原创 2024-12-27 15:28:47 · 2347 阅读 · 0 评论 -
DeepSpeed的json配置讲解:ds_config_zero3.json
上述配置段落是 DeepSpeed 的一个 JSON 配置,用于配置 Zero Redundancy Optimizer(ZeRO)的运行模式和相关优化参数。DeepSpeed 是一个高性能深度学习训练库,其中 ZeRO 是一种分布式优化器,能显著降低深度学习模型训练过程中显存使用的开销,以支持训练超大规模模型。总体上,这是一种典型的优化配置,专门用于在显存有限的场景下训练非常大的模型,同时最大程度维持训练性能。原创 2024-12-27 15:10:43 · 650 阅读 · 0 评论 -
如何修改pip全局缓存位置和全局安装包存放路径
目录下,会使用到系统盘的内存。因此需要修改pip的全局缓存位置和全局安装包存放路径,可以极大的节省系统盘内存。可以通过编辑配置文件,设置安装目标位置。的缓存位置和安装目标位置。会默认将下载的文件存放在缓存目录中(如 Linux 的。),如果你需要更改这个目录,可以通过设置环境变量。的当前缓存目录和配置内容,以便确认是否生效。当遇到系统盘的内存很小的时候,在默认情况下,会将安装的包存放在 Python 环境的。的默认行为,包括缓存位置和安装路径等。的存放目录),可以通过以下方法实现。原创 2024-12-25 15:08:20 · 4282 阅读 · 0 评论 -
网络不通该如何手动下载torch
如果遇到pip install torch==1.13.0 下载不了的情况,大部分是网络的问题.可以考虑下载wheel文件在去安装查看对应的cuda版本(举个例子:cuda为12.4,找到这个版本的 复制到服务器上下载):有conda和pip下载的两种方式,二者选其一:如果没有安装anaconda,就直接使用pip的方式下载如果还出现下载不了的话,就点出现的链接,手动在浏览器上下载对应wheele文件原创 2024-12-20 11:52:02 · 261 阅读 · 0 评论 -
量化算法:bitsandbytes、hqq、eetq
它具有较快的速度和简单易用的特性,能够在不牺牲精度的前提下,大幅提升 Transformer 模型的运行速度和计算效率。这些量化算法都是为了提高模型的运行效率和降低资源消耗而设计的,它们各自有不同的特点和优势,适用于不同的应用场景和需求。作为一种动态的后训练量化方法,HQQ 无需校准阶段,但能够取得与需要校准数据集的方法相当的准确度,并且有着极快的推理速度。它支持 4-bit, 8-bit, 16-bit, 和 32-bit 浮点数类型,以及整数量化,提供了三个主要功能,可显著减少推理和训练的内存消耗。原创 2024-12-18 11:38:59 · 1072 阅读 · 0 评论 -
微调方法:full,freeze,lora
这三种微调策略的选择取决于不同的需求和情况。Full微调适用于全面调整模型的情况,而Freeze微调适用于只关注特定任务的情况。LoRA微调则提供了一种更加灵活的方式来调整模型在不同层级上的相关性。原创 2024-12-17 11:32:23 · 511 阅读 · 0 评论 -
深度学习速通系列:动态规划
(Dynamic Programming,简称DP)是一种用于解决最优化问题的算法设计方法。它通过将复杂问题分解成更小的子问题,并存储已解决的子问题结果来避免重复计算,从而有效地提高计算效率。原创 2024-12-15 17:06:19 · 711 阅读 · 0 评论 -
ollama如何导入自己的模型(轻松搞定)
快速在ollama启动自己的模型原创 2024-12-12 16:12:58 · 1434 阅读 · 0 评论 -
Dify快速部署(简单上手,看这一篇就足够了)
4.根据你系统上的 Docker Compose 版本,选择合适的命令来启动容器。你可以通过 命令检查版本:$ docker compose version。注:如果是网络问题的话 那就是镜像的问题 配置可用的镜像 再运行下hello-world。在这个输出中,你应该可以看到包括 3 个业务服务 ,以及 6 个基础组件。通过这些步骤,你应该可以成功在本地安装 Dify。其中 是最新版本的占位符文本。原创 2024-12-02 16:03:32 · 2543 阅读 · 0 评论 -
dify接入ollama模型报错:max retries exceeded with url
这个错误是因为 Docker 容器无法访问 Ollama 服务。localhost 通常指的是容器本身,而不是主机或其他容器。要解决此问题,你需要将 Ollama 服务暴露给网络。原创 2024-12-02 15:34:49 · 8133 阅读 · 0 评论 -
如何查看GPU显卡实时运行情况
nvitop是一个用于监控 NVIDIA GPU 使用情况的命令行工具,类似于 Linux 上的top命令,但专门用于展示 GPU 相关的性能数据。它提供了有关 GPU 资源利用率、内存使用、温度等信息,非常适合开发者和数据科学家在深度学习训练时实时监控 GPU 状态。原创 2024-11-19 14:27:53 · 1516 阅读 · 0 评论 -
深度学习速通系列:dify快速搭建
这行命令从Docker官方仓库下载适合当前系统架构的docker-compose二进制文件,并赋予其可执行权限。这行命令使用docker-compose以分离模式启动Dify的Docker容器。这行命令用于查看已安装的docker-compose版本。这行命令通过curl下载并运行一个Docker安装脚本。这行命令从GitHub上克隆Dify项目的代码仓库。这行命令进入Dify项目中的docker目录。这行命令列出当前正在运行的Docker容器。原创 2024-11-18 15:48:11 · 551 阅读 · 2 评论 -
LLaMA Factory快速上手&&可视化使用(看这一篇就足够)
LLaMA Factory是一个旨在简化大型语言模型微调、评估和部署过程的工具。它支持多种开源语言模型,并提供高效的微调方法。原创 2024-11-14 16:07:20 · 995 阅读 · 0 评论 -
深度学习速通系列:在bert的基础上使用上下文窗口处理超长文本
要使用滑动上下文窗口进行处理,可以在分割文本时考虑一个重叠的窗口,使得每个窗口的起始位置和结束位置有一定的重叠。这样可以保留更多的上下文信息。原创 2024-10-30 09:08:18 · 776 阅读 · 0 评论 -
深度学习速通系列:如何使用bert进行超长中文文本命名实体识别
要将超长中文文本按最大 BERT 输入长度进行分割,并使用 bert-chinese-ner 模型进行命名实体识别,可以遵循以下步骤。以下是一个 Python 代码示例,利用 Hugging Face 的 transformers 库来实现:安装必要的库代码示例。原创 2024-10-29 20:18:44 · 760 阅读 · 0 评论 -
深度学习速通系列:超长法律文件隐私过滤(基于预训练模型Bert)
网上使用bert的中文模型进行命名识别教程少的可怜,摸索了一周的时间,硬是把法律文书的人名全部识别出来了,目前可以达到98.9999%(开玩笑的,不过准确率保守估计是有90%以上).注意:这个法律文书目前只是针对裁决书,其他还没测试过,可支持超长文本识别。bert-base-chinese-ner 下载路径:https://hf-mirror.com/ckiplab/bert-base-chinese-ner (国内镜像,不用魔法也能访问)欢迎各位点个☆Star!下载好,直接放在当前目录下。原创 2024-10-18 11:25:27 · 603 阅读 · 0 评论 -
深度学习速通系列:中文命名实体识别(NER)数据集大全(含链接)
训练集8001条、验证集1000条、测试集1001条。:在清华大学开源的文本分类数据集THUCTC基础上进行细粒度命名实体标注,包含地址、书名、公司、游戏、政府、电影、姓名、组织机构、职位、景点等类别。:基于淘宝电商数据制作的NER数据集,包括商品名称、商品型号、人名、地名等类别。:基于新浪财经收集的上市公司高管简历,标注了国籍、教育背景、地名、人名、组织名、专业、民族、职称等8种实体。:由Boson提供,包含时间、地点、人名、组织名、公司名、产品名等类别,共2000个段落。原创 2024-10-16 10:08:57 · 2070 阅读 · 0 评论 -
深度学习速通系列之数据标注工具Lable Studio的使用
此外,Label Studio 还支持多人协作标注、数据筛选、版本控制和自定义设置等高级功能。你还可以利用 Label Studio 的机器学习集成功能,将机器学习模型与标注流程集成,实现数据预标注和在线学习。Label Studio 是一个开源的数据标注工具,它支持多种数据类型的标注,如文本、图像、音频、视频等。如果你需要更详细的操作指导,可以查看 Label Studio 的官方文档 ,或者参考社区中的博客文章和教程。原创 2024-10-12 15:29:07 · 764 阅读 · 0 评论 -
深度学习速通系列:如何使用bert和crf进行法律文书脱敏
以上步骤详细介绍了如何使用BERT和CRF进行法律文书的脱敏处理,包括数据标注、预处理、模型微调、评估、导出和使用模型等环节。每一步都可以根据实际需求进行调整,以便更好地满足特定的应用场景。原创 2024-10-07 20:12:09 · 955 阅读 · 0 评论 -
深度学习速通系列:CRF是什么
给定一个观察序列XXX= {x1x2xnx1x2xn}和一个状态序列Yy1y2ynYy1y2yn,CRF 模型的目标是学习条件概率分布PY∣XP(Y|X)PY∣X。原创 2024-10-07 17:16:56 · 1292 阅读 · 0 评论 -
深度学习速通系列:强大的中文自然语言处理工具之Pyltp的使用
Pyltp 是哈工大语言技术平台(LTP)的 Python 接口,它提供了多种自然语言处理功能。原创 2024-09-26 16:56:57 · 850 阅读 · 0 评论 -
深度学习速通系列:如何使用文本标注工具进行命名实体识别?
具体到每个工具的操作可能会有所不同,但大体流程是类似的。例如,Doccano是一个流行的开源文本标注工具,它支持文本分类、序列标注和序列到序列的标注功能,可以通过Docker进行安装和使用。Label Studio也是一个强大的标注工具,支持多种数据类型的标注,并提供实时协作和导出功能。YEDDA则是一款基于Python的文本标注工具,特别适合中文文本标注,支持快捷键标注和多用户协作。在实际操作中,可以参考各个工具的官方文档或社区提供的教程进行详细学习。原创 2024-09-23 09:03:21 · 512 阅读 · 0 评论 -
深度学习速通系列: FastAPI 快速入门
FastAPI 是一个现代、快速(高性能)的 Web 框架,用于构建 API,使用 Python 编写。它基于标准 Python 类型提示,并且自动提供了交互式 API 文档。原创 2024-09-23 09:02:18 · 552 阅读 · 0 评论 -
深度学习速通系列:在命名实体识别中有哪些标注方法?
除了上述方法,还有一些其他的NER方法,如基于词典的方法、基于规则的方法、基于机器学习的方法(如隐马尔可夫模型HMM、条件随机场CRF等),以及基于深度学习的方法(如RNN-CRF、CNN-CRF、BiLSTM-CRF等)。:这是最基本的序列标注方法,使用三个标签:B(Begin)表示实体的开始,I(Inside)表示实体内部的词,O(Outside)表示非实体部分。命名实体识别(NER)是自然语言处理(NLP)中的一项关键任务,它涉及到从文本中识别出具有特定意义的实体,如人名、地名、机构名等。原创 2024-09-22 22:57:09 · 714 阅读 · 0 评论 -
深度学习速通系列:什么是文本数据标注
标注过程中可能需要使用多种工具和方法,完成后还需进行质量检查和验收,最终将数据转换为适合模型使用的格式并进行交付。整个过程需要细致的态度和严谨的流程,以确保数据的质量和模型的性能。文本数据标注是机器学习和人工智能领域中的一个重要环节,它涉及将文本中的信息进行分类、识别和标记,以便机器学习模型能够更好地理解和处理这些数据。标注后的数据通常用于训练机器学习模型,如自然语言处理(NLP)模型,以提高模型在文本分类、情感分析、问答系统等任务上的性能。原创 2024-09-22 18:18:31 · 1326 阅读 · 0 评论 -
深度学习速通系列:在进行大模型微调时,如何确定最佳的学习率和批次大小?
这是因为较大的批次大小提供了更稳定但可能较不精确的梯度估计,而较大的学习率可以帮助模型在优化过程中迈出更大的步伐。较大的数据集可能允许使用较大的批次大小,而较小的数据集可能需要较小的批次大小以确保模型能够从每个批次中学习到有效的信息。最终,确定最佳学习率和批次大小通常需要结合具体任务、数据集和模型的特点,并通过实验来不断调整和优化。:在训练过程中,可能需要使用学习率调度策略,如学习率衰减或warmup策略,以动态调整学习率,从而在训练的不同阶段优化性能。:模型的大小和复杂性也会影响批次大小的选择。原创 2024-09-20 00:00:40 · 1171 阅读 · 0 评论