自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(112)
  • 资源 (2)
  • 收藏
  • 关注

原创 大模型微调训练的各个阶段

大模型训练分阶段流程概述 大模型训练遵循严格顺序:预训练→指令微调→奖励建模→强化学习→优化改进。 预训练:通过海量文本学习语言规律,使用无监督数据(如JSON/TXT格式文本),训练工具有Megatron-LM、DeepSpeed等。 指令微调(SFT):让模型学会遵循人类指令,使用指令-回答对数据(JSON格式),常见工具包括LLaMA-Factory、Hugging Face PEFT等。 奖励建模:训练模型区分回答优劣,使用带偏好标注的对比数据(prompt+好/坏回答),工具如trlx、LLaMA

2025-10-12 13:50:44 452

原创 为什么ubuntu大文件拷贝会先快后慢?

Linux/Ubuntu上大文件拷贝速度先快后慢是正常现象,主要由缓存机制和存储介质特性导致。初期高速源于数据先写入内存页缓存和硬盘DRAM缓存,显示的是内存写入速度;随着缓存填满,速度降至硬盘实际写入能力(HDD约50-200MB/s,SSD可能从1GB/s降至100MB/s)。文件系统元数据开销和I/O调度策略也会影响速度。建议使用SSD、调整rsync参数或修改内核写回策略(dirty_ratio等)来优化稳定性。

2025-09-06 15:38:15 502

原创 自己微调的大模型如何用ollama运行

本文介绍了如何在Ollama中运行本地微调的GGUF格式模型。主要内容包括:1)准备GGUF模型文件;2)创建Modelfile定义模型路径、系统角色和推理参数;3)使用ollama create命令注册自定义模型;4)通过ollama run运行模型。文档还提供了调优建议和模型管理方法,帮助用户灵活使用自定义模型功能。整个过程简单易行,只需准备模型文件和Modelfile即可在Ollama中运行个性化的大模型。

2025-08-20 19:14:37 453

原创 在win上安装最新的X-anylabeling以及sam2来帮助进行全自动追踪标注

X-AnyLabeling是一款集成AI引擎的智能标注工具,专为多模态数据工程师设计。本文详细介绍了在Windows系统下的安装流程:首先配置C++编译环境和CUDA驱动;然后通过Miniconda创建Python 3.11虚拟环境并安装PyTorch;重点编译segment-anything-2核心组件;最后安装X-AnyLabeling主程序及GPU加速依赖。安装完成后,用户可运行交互式视频对象分割标注功能。文章特别指出GPU加速存在兼容性问题,建议从源码编译,并提供了完整的安装命令和常见问题解决方案。

2025-08-03 15:59:48 931

原创 [Datawhale AI夏令营]大模型技术-基于带货视频评论的用户洞察挑战赛上分分享

本文分析了视频评论数据分析赛题的三个任务:商品识别、情感分析和评论聚类。1)商品识别任务通过拼接视频描述和标签,使用TF-IDF向量化和分类器预测产品名称,采用大语言模型API后准确率提升至96.92%;2)情感分析任务采用类似方法对评论进行多分类;3)评论聚类任务调整聚类数量至6个后,评分显著提高到52.28。文章指出商品识别准确率对后续任务影响重大,并展示了通过模型优化和参数调整的提分效果,总分达到235.99。最后提出仍有较大提升空间,鼓励进一步讨论优化方案。

2025-07-08 16:33:04 421 1

原创 [论文阅读]VGGFace2: A dataset for recognising faces across pose and age

本文提出VGGFace2数据集,包含9131个身份共331万张图像,覆盖多样化的姿态、年龄和种族。通过多阶段自动和人工过滤确保标签准确性。实验表明,在该数据集上训练的ResNet-50模型在IJB基准测试中达到最优性能。数据集公开可用,为研究人脸识别中的姿态和年龄变化提供了重要资源。 (149字)

2025-07-06 11:57:00 1500 1

原创 利用systemd启动部署在服务器上的web应用

在Ubuntu 22.04系统环境下,配置并管理基于React前端和FastAPI后端的Web应用服务。前端通过创建systemd服务文件,使用npm run dev命令启动开发服务器,若使用nvm管理Node.js,需在服务文件中添加环境变量和nvm命令。后端通过编写启动脚本,使用uvicorn启动FastAPI应用,若使用conda管理环境,需在脚本中激活conda环境。创建后端systemd服务文件后,通过systemctl命令管理前后端服务的启动、停止和状态查看。

2025-05-18 11:05:55 582

原创 深度模型训练,加速数据读取遇到显卡跑不满的问题

在PyTorch的DataLoader中使用prefetch_factor参数时,硬盘类型对GPU利用率有显著影响。实测发现,当数据存储在机械硬盘上时,数据预加载速度成为瓶颈,导致GPU无法跑满;而当数据存储在固态硬盘上时,GPU利用率得以最大化。此前,通过增加内存并将数据一次性加载到内存中解决了这一问题,但每次训练前需要较长的数据加载时间。后续尝试使用prefetch_factor参数后,发现固态硬盘下的数据加载效率足以支持GPU满负荷运行,而机械硬盘则无法达到相同的效果。因此,硬盘性能是影响GPU利用率

2025-05-11 00:43:21 282

原创 [论文阅读]Deeply-Supervised Nets

深度监督网络(DSN)通过为每个隐藏层引入“伴随目标”,在最小化分类误差的同时,增强了隐藏层学习过程的透明性和直接性。该方法在卷积神经网络(CNN)中关注中间层的透明性、早期层特征的区分性和鲁棒性,以及梯度爆炸和梯度消失问题。DSN通过为每个隐藏层引入独立目标,显著提升了分类性能,实验结果表明在MNIST、CIFAR-10、CIFAR-100和SVHN等基准数据集上优于现有方法。DSN不仅提高了训练效率,还增强了模型的泛化能力,展示了在深度学习中的潜力。

2025-05-09 22:23:52 1215 1

原创 [论文阅读]Deep & Cross Network for Ad Click Predictions

点击率(CTR)预测是一个大规模的问题,对数十亿美元的在线广告行业至关重要。在广告行业,广告商付钱给出版商,让他们在出版商的网站上展示自己的广告。一种流行的付费模式是按点击付费(CPC)模式,即只有当点击发生时才向广告商收费。因此,发行商的收益很大程度上依赖于准确预测点击率的能力。识别频繁预测的特征,同时探索未见或罕见的交叉特征是做出良好预测的关键。然而,web尺度的推荐系统的数据大多是离散的和分类的,这导致了一个大而稀疏的特征空间,这对特征探索是一个挑战。

2025-05-06 18:02:33 1271 1

原创 [Datawheel大模型应用开发]速通百炼RAG应用,上手AI Agent应用开发

流程和上面是一致的,下面是修改后的prompt# 角色 你是一位专业的兽医,专注于猪和牛领域的疫病。凭借深厚的专业知识和丰富经验,依据用户提供的上下文信息精准分析用户提出的畜禽疫病相关问题,并给出全面、详细且专业的解答。## 技能 ###技能 1:精准把握用户需求 1 .当用户输入完整问题时,迅速准确理解需求点,运用专业知识分析解答。2 .若用户仅输入一个短语,礼貌追问用户,引导其提供该问题相关的详细背景信息,如养殖规模,养殖方式,具体什么品种等。3 .先归纳结论。

2025-04-13 10:56:23 458

原创 [论文阅读]Transformers without Normalization

在过去的十年里,归一化层已经巩固了它们作为现代神经网络最基本组成部分之一的地位。所有这些都可以追溯到2015年批归一化的发明(Ioffe和Szegedy,2015),这使得视觉识别模型的收敛速度更快、更好,并在随后几年迅速取得发展。从那以后,针对不同的网络架构或领域提出了许多归一化层的变体。今天,几乎所有的现代网络都使用规范化层,层归一化(layer Norm,或LN) (Ba et al., 2016)是最流行的一种,特别是在占主导地位的Transformer架构中。

2025-04-12 00:38:33 1245 1

原创 [论文阅读]PMC-LLaMA: Towards Building Open-source Language Models for Medicine

最近,大语言模型在自然语言理解方面展现了非凡的能力。尽管在日常交流和问答场景下表现很好,但是由于缺乏特定领域的知识,这些模型在需要精确度的领域经常表现不佳,例如医学应用。本文中,我们描述了构建一个专门为医学应用设计的强大的开源语言模型的流程,我们称其为PMC-LLaMA。我们的贡献有以下三方面:(i)我们系统性地调研了通用基础语言模型到医学领域的适应过程,这包括以数据为中心的知识注入,通过整合480万篇生物医学学术论文和3万本医学教科书,以及针对特定领域指令的全面微调;

2025-04-05 23:37:32 1520 4

原创 [论文阅读]FROM BEGINNER TO EXPERT: MODELING MEDICAL KNOWLEDGE INTO GENERAL LLMS

一篇医疗大模型的技术报告,了解医疗大模型的训练流程

2025-03-20 23:02:06 156

原创 修复ubuntu下找不到音频设备的问题

用上面的代码输出始终为空,但是系统中又可以通过命令行录制音频,就怀疑是sounddevice的依赖有问题,重新编译安装依赖库,最终问题得以解决。默认情况下,sounddevice 可能尝试通过 PulseAudio 访问设备,导致冲突。步骤 2:重新编译 sounddevice 的 PortAudio 后端(最终修复步骤)tips:但是我的sounddevice显示设备始终为空,指定也没用。步骤 1:安装 PortAudio 的 ALSA 开发库。方法二:在代码中指定设备名称。方法一:通过环境变量设置。

2025-03-10 13:00:05 1065

原创 [Datawhale]Task03——Transformer的Decoder详解

Decoderde的任务是生成文本序列,需要注意的是解码器是自回归的,Decoder部分主要包括:Masked Multi-Head Attention 具有掩码的多头注意力机制 / Multi-Head Attention 多头注意力机制 / Feed Forward 前馈网络 / 分类器。

2025-02-22 00:48:31 212

原创 [Datawhale]Task03——Transformer的Encoder详解

Encoder的整体结构,由如下图左侧所示的多个Encoder子模块堆叠而成,其中,第一个 Encoder 子模块接收来自嵌入(Input Embedding)和位置编码(Position Embedding)组合后的输入(inputs)。除了第一个 Encoder 之外的其他 Encoder 子模块,它们从前一个 Encoder 接收相应的输入(inputs),这样就形成了一个顺序传递信息的链路。

2025-02-18 22:39:10 1173

原创 [Datawhale]Task02——Transformer相关理论详述

构成整体采用编码器-解码器架构添加了位置编码,使得模型能够区分序列中元素的相对位置多头注意力,可以同时关注输入序列的不同部分前馈网络,捕捉序列中元素之间的复杂关系的多功能组件。

2025-02-15 17:47:55 1189

原创 ubuntu下ollama/vllm两种方式在本地部署Deepseek-R1

今年过年,deepseek一下子爆火,导致我前段时间好好用的官网直接挤爆了,一直转圈圈到没心思过了,天天挂热搜,直接导致我的科研工作受阻(dog),好吧,话不多说,看看怎么在本地部署deepseek丝滑享受以及白嫖一下api体验>_<!部署环境:系统:ubuntu22.04显卡:一张4090,24G显存。

2025-02-12 16:15:08 2449 1

原创 [Datawhale]Task01——Transformer学习入门

Seq2Seq模型是Encoder-Decoder架构的一种具体应用Seq2Seq 更强调目的,Encoder-Decoder 更强调方法。

2025-02-12 15:05:20 776

原创 ollama模型一键满速下载

最近用ollama部署deepseek,发现模型下载很慢,一开始还能跑满,之后就开始掉速,实在受不了了,上网一搜,一大堆说怎么下载ollama的,零星有几个下载模型加速的,试了一圈,没有特方便的,github上找找吧,终于找到一个超好用的!github地址。

2025-02-12 14:00:53 1701 2

原创 [Datawheel]利用metaGPT多智能体框架实现智能体-2

在 MetaGPT 中,类 Action 是动作的逻辑抽象。用户可以通过简单地调用 self._aask 函数令 LLM 赋予这个动作能力,即这个函数将在底层调用 LLM api。

2025-01-25 17:20:01 1404 1

原创 [Datawheel]利用metaGPT多智能体框架实现智能体-1

MetaGPT 是一个基于大语言模型(如 GPT-4)的多智能体协作框架,旨在通过模拟人类团队的工作模式,让多个 AI 智能体分工合作,共同完成复杂的任务。它通过赋予不同智能体特定的角色(如产品经理、工程师、测试员等),并定义标准化的工作流程,显著提升了任务执行的效率和可靠性。将任务分解为需求分析、设计、开发、测试等标准化步骤,减少大模型常见的逻辑错误或“幻觉”。例如,开发软件时,产品经理先输出需求文档,工程师再编写代码,测试员验证功能。

2025-01-25 16:52:42 1853

原创 [Datawheel]利用Zigent框架编写智能体-2

定义 WriteDirectoryAction 类,继承自 BaseAction。该类的主要功能是生成一个教程的目录结构。具体来说,它通过调用大语言模型(LLM)来根据给定的主题和语言生成一个符合特定格式的目录。

2025-01-24 23:35:02 697

原创 How to learn html?基于chatGLM-b生成示例(仅供参考)

HTML文件通常由纯文本内容组成,内容被特定的标记符号包围。这些标记符号定义了文档的结构和格式。HTML不涉及布局、样式和颜色,这些问题可以通过CSS(Cascading Style Sheets,级联样式表)来解决。但是,HTML是网页制作的基础。HTML文档是一种文本文件,其内容以特定格式的标记来组织信息。文档类型声明(DOCTYPE)它位于HTML文档的第一行,用于告知浏览器文档所使用的HTML版本。HTML根元素(html)html元素包含整个HTML文档的内容,它定义了文档的类型为HTML。

2025-01-24 22:45:20 1127

原创 [Datawheel]利用Zigent框架编写智能体-1

Zigent 是一个多智能体框架,旨在简化和优化智能体的开发与部署。Zigent 是由 自塾(Zishu.co) 团队开发的一个开源项目。自塾在 2024 年推出了多个开源项目,其中包括 wow-agent,而 Zigent 是 wow-agent 项目的一部分,用于搭建 AI Agent 系统。Zigent 是一个基于 Agentlite 框架改进的智能代理开发框架。Agentlite 最初由 Salesforce AI Research 团队开发,是一个强大的 Agent 开发框架。

2025-01-24 20:06:19 1016

原创 [Datawheel]用Llama-index创建Agent、数据库对话Agent和RAG接入Agent

frompydanticimportField#导入Field,用于Pydantic模型中定义字段的元数据CustomLLM,#定义OurLLM类,继承自CustomLLM基类client:OpenAI=Field(default=None,exclude=True)#显式声明client字段。

2025-01-17 22:39:16 1672 2

原创 [Datawheel]wow-agent以及利用openai库搭建AI Agent

print("意图识别:",ai_response)print("意图识别:",ai_response)print("意图识别:",ai_response)print("意图识别:",ai_response)else:break。

2025-01-14 15:11:18 1090

原创 nn.CosineSimilarity如何理解?

总体来说还是比较好理解的,两个向量的相似度,就是看两个向量的夹角,如果夹角为0,则余弦值为1,说明两个向量相关,夹角为180,则说明两个向量负相关,而如果为90度,则表示向量正交无相关性。余弦相似度(Cosine Similarity)是一种用于衡量两个向量在空间中夹角的相似度的度量方法。它通过计算两个向量的余弦值来判断它们的相似性,值的范围通常在-1到1之间。dim (int, optional) – 计算余弦相似度的维度,默认为1。0 表示两个向量正交(没有相似性,方向完全不同)。

2024-12-04 08:43:11 397

原创 torchvison.models中包含的哪些模型?

1.模型AlexnetAlexNet 是一个具有 8 层的深度卷积神经网络,结构上比早期的卷积神经网络(如 LeNet)要深得多。它由 5 个卷积层(conv layers)和 3 个全连接层(fully connected layers)组成。AlexNet 的googlenetGoogLeNet 是 Google 在 2014 年提出的一种深度卷积神经网络架构,它在 ImageNet 大规模视觉识别挑战赛中取得了非常优秀的成绩,获得了 2014 年的冠军。GoogLeNet 的最大创新点之一是

2024-12-03 21:11:59 1352

原创 pytorch中model.eval的理解

在复现simsam的过程中,看到在线性评估部分的训练函数中设置了model.eval,不太理解,印象中一直觉得,model.eval会影响梯度的回传,这里来拨乱反正一下。

2024-12-03 10:41:00 829

原创 [论文阅读]Unsupervised Learning of Visual Features by Contrasting Cluster Assignments

无监督图像表征学习在缩小与有监督预训练的差距方面取得了显著进展,尤其是在近期对比学习方法的成就上。这些对比方法通常是在线工作的,需要大量显式的特征配对比较,计算成本很高。本文提出了一种在线算法 SwAV,它利用了对比方法的优势,但不需要计算成对比较。具体来说,我们的方法在对数据进行聚类的同时,保持对同一图像的不同增强(或“视图”)生成的聚类分配的一致性,而不是像对比学习那样直接比较特征。简而言之,我们使用了一种“交换”预测机制,在其中我们从一个视图的表征来预测另一个视图的编码。

2024-11-13 17:04:41 1397 1

原创 [论文阅读]Automatic detection of continuous pig cough in a complex piggery environment

猪呼吸道疾病因其高度传染性和高致死性严重制约了健康养殖的发展(Assavacheep & Thanawongnuwech, 2022;Ji, Yin等, 2022;Sassu等, 2018)。传统的早期预警方法主要依赖人工检查。近年来,越来越多的研究集中于猪咳嗽的自动检测,以提供预警(Racewicz等, 2021)。早期的研究提出了许多针对猪咳嗽识别的解决方案,并取得了良好的结果。

2024-10-27 21:24:29 1575 1

原创 [论文阅读]RGB-Depth Fusion GAN for Indoor Depth Completion再阅读

欢迎各位同学学习讨论!

2024-10-21 19:58:17 342 1

原创 [论文阅读]RGB-Depth Fusion GAN for Indoor Depth Completion

由于固有的限制,如无法感知透明物体和有限的距离范围,室内深度传感器捕获的原始深度图像通常会有大面积的深度值缺失。这种不完整的深度图给许多后续视觉任务带来了负担,尽管提出了很多深度补全方法来缓解这一问题。但是现有的大多数方法都是从稀疏和均匀采样的深度图生成精确的稠密深度图,不适用于补充大面积连续的深度值缺失区域,而这是十分常见且至关重要。本文设计了一种新颖的两分支端到端融合网络,输入为RGB图像和不完整的深度图,输出为稠密且完整的深度图。

2024-10-17 18:51:01 1496 2

原创 [论文阅读]Deep Depth Completion of a Single RGB-D Image

我们的工作目标是完成RGB-D图像的深度通道。商用级深度摄像头通常无法捕捉光滑、明亮、透明和远处表面的深度信息。为了解决这个问题,我们训练了一个深度网络,该网络以RGB图像作为输入,并预测稠密的表面法线和遮挡边界。然后,这些预测与RGB-D摄像头提供的原始深度观测数据结合起来,解决了包括原始观测中缺失像素在内的所有像素的深度问题。

2024-10-15 11:08:47 1407 1

原创 [论文阅读]AGG-Net: Attention Guided Gated-convolutional Network for Depth Image Completion

最近,基于轻量化RGBD相机的单目视觉广泛用于各种领域。然而,受限于成像原理,通常使用的基于TOF,结构光或双目视觉的RGBD相机不可避免的会获取一些无效数据,例如弱反射,边界阴影和伪影,这些也许会给后续的工作带来消极的影响。在本文中,我们提出 了一个新的基于注意力指导的门卷积网络(AGG-Net)的深度图像补全模型,通过这种方法可以从原始的深度图像和对应的RGB图像获得更加准确和可靠的的深度图像。我们的模型使用了一个类U-Net架构,由两个平行的深度和颜色特征分支构成。

2024-10-13 17:55:06 1579 1

原创 PyTorch中,view, reshape, 或者 permute 的区别和联系

简单来说,view和reshape都是用来改变张量的形状的,view更快但要求连续存储,而reshape慢一点不要求连续,灵活度高;而permute是用来调整tensor的维度的顺序的,不改变形状大小。

2024-09-02 11:02:35 909

原创 [Datawhale AI 夏令营]多模态大模型数据合成赛事-Task2

简单按照datawhale给的task2的文档学习了一下,主要还是学习了Data-Juicer相关的知识。

2024-08-15 23:17:44 1140

原创 [Datawhale AI 夏令营]多模态大模型数据合成赛事-Task1

参加了一个多模态大模型数据合成的比赛,赛事链接https://tianchi.aliyun.com/competition/entrance/532251。比赛官方是有提供平台的,但是训练还是需要额外的付费,囊肿羞涩就自己搞一下吧。强烈建议步骤1和步骤2的时候没必要用太高的配置,从步骤3开始调高配置,该省省该花花嘛!打完收工~,以上就是在非官方平台跑通baseline的全过程,唯一的卡点就是在数据下载部分,但是只要注意上面提到的两点应该就没有大问题,有其他问题可以在评论区提问,后续会补充回答!

2024-08-11 18:10:28 539

mineru+notion,自动化pdf转md文件上传知识库

mineru+notion,自动化pdf转md文件上传知识库

2025-07-02

YOLOv7源代码+权重文件

方便各位下载,YOLOv7源代码+权重文件

2022-07-14

机器学习数据集猪头部识别yolo格式

1490左右张已经标注好的猪的头部的图片,yolo格式

2022-07-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除