不是吧这都有重名-优快云博客

原创大模型微调训练的各个阶段

大模型训练分阶段流程概述大模型训练遵循严格顺序：预训练→指令微调→奖励建模→强化学习→优化改进。预训练：通过海量文本学习语言规律，使用无监督数据（如JSON/TXT格式文本），训练工具有Megatron-LM、DeepSpeed等。指令微调(SFT)：让模型学会遵循人类指令，使用指令-回答对数据（JSON格式），常见工具包括LLaMA-Factory、Hugging Face PEFT等。奖励建模：训练模型区分回答优劣，使用带偏好标注的对比数据（prompt+好/坏回答），工具如trlx、LLaMA

2025-10-12 13:50:44 493

原创为什么ubuntu大文件拷贝会先快后慢？

Linux/Ubuntu上大文件拷贝速度先快后慢是正常现象，主要由缓存机制和存储介质特性导致。初期高速源于数据先写入内存页缓存和硬盘DRAM缓存，显示的是内存写入速度；随着缓存填满，速度降至硬盘实际写入能力（HDD约50-200MB/s，SSD可能从1GB/s降至100MB/s）。文件系统元数据开销和I/O调度策略也会影响速度。建议使用SSD、调整rsync参数或修改内核写回策略(dirty_ratio等)来优化稳定性。

2025-09-06 15:38:15 578

原创自己微调的大模型如何用ollama运行

本文介绍了如何在Ollama中运行本地微调的GGUF格式模型。主要内容包括：1)准备GGUF模型文件；2)创建Modelfile定义模型路径、系统角色和推理参数；3)使用ollama create命令注册自定义模型；4)通过ollama run运行模型。文档还提供了调优建议和模型管理方法，帮助用户灵活使用自定义模型功能。整个过程简单易行，只需准备模型文件和Modelfile即可在Ollama中运行个性化的大模型。

2025-08-20 19:14:37 514

原创在win上安装最新的X-anylabeling以及sam2来帮助进行全自动追踪标注

X-AnyLabeling是一款集成AI引擎的智能标注工具，专为多模态数据工程师设计。本文详细介绍了在Windows系统下的安装流程：首先配置C++编译环境和CUDA驱动；然后通过Miniconda创建Python 3.11虚拟环境并安装PyTorch；重点编译segment-anything-2核心组件；最后安装X-AnyLabeling主程序及GPU加速依赖。安装完成后，用户可运行交互式视频对象分割标注功能。文章特别指出GPU加速存在兼容性问题，建议从源码编译，并提供了完整的安装命令和常见问题解决方案。

2025-08-03 15:59:48 1075

原创 [Datawhale AI夏令营]大模型技术-基于带货视频评论的用户洞察挑战赛上分分享

本文分析了视频评论数据分析赛题的三个任务：商品识别、情感分析和评论聚类。1）商品识别任务通过拼接视频描述和标签，使用TF-IDF向量化和分类器预测产品名称，采用大语言模型API后准确率提升至96.92%；2）情感分析任务采用类似方法对评论进行多分类；3）评论聚类任务调整聚类数量至6个后，评分显著提高到52.28。文章指出商品识别准确率对后续任务影响重大，并展示了通过模型优化和参数调整的提分效果，总分达到235.99。最后提出仍有较大提升空间，鼓励进一步讨论优化方案。

2025-07-08 16:33:04 426 1

原创 [论文阅读]VGGFace2: A dataset for recognising faces across pose and age

本文提出VGGFace2数据集，包含9131个身份共331万张图像，覆盖多样化的姿态、年龄和种族。通过多阶段自动和人工过滤确保标签准确性。实验表明，在该数据集上训练的ResNet-50模型在IJB基准测试中达到最优性能。数据集公开可用，为研究人脸识别中的姿态和年龄变化提供了重要资源。（149字）

2025-07-06 11:57:00 1577 1

原创利用systemd启动部署在服务器上的web应用

在Ubuntu 22.04系统环境下，配置并管理基于React前端和FastAPI后端的Web应用服务。前端通过创建systemd服务文件，使用npm run dev命令启动开发服务器，若使用nvm管理Node.js，需在服务文件中添加环境变量和nvm命令。后端通过编写启动脚本，使用uvicorn启动FastAPI应用，若使用conda管理环境，需在脚本中激活conda环境。创建后端systemd服务文件后，通过systemctl命令管理前后端服务的启动、停止和状态查看。

2025-05-18 11:05:55 621

原创深度模型训练，加速数据读取遇到显卡跑不满的问题

在PyTorch的DataLoader中使用prefetch_factor参数时，硬盘类型对GPU利用率有显著影响。实测发现，当数据存储在机械硬盘上时，数据预加载速度成为瓶颈，导致GPU无法跑满；而当数据存储在固态硬盘上时，GPU利用率得以最大化。此前，通过增加内存并将数据一次性加载到内存中解决了这一问题，但每次训练前需要较长的数据加载时间。后续尝试使用prefetch_factor参数后，发现固态硬盘下的数据加载效率足以支持GPU满负荷运行，而机械硬盘则无法达到相同的效果。因此，硬盘性能是影响GPU利用率

2025-05-11 00:43:21 308

原创 [论文阅读]Deeply-Supervised Nets

深度监督网络（DSN）通过为每个隐藏层引入“伴随目标”，在最小化分类误差的同时，增强了隐藏层学习过程的透明性和直接性。该方法在卷积神经网络（CNN）中关注中间层的透明性、早期层特征的区分性和鲁棒性，以及梯度爆炸和梯度消失问题。DSN通过为每个隐藏层引入独立目标，显著提升了分类性能，实验结果表明在MNIST、CIFAR-10、CIFAR-100和SVHN等基准数据集上优于现有方法。DSN不仅提高了训练效率，还增强了模型的泛化能力，展示了在深度学习中的潜力。

2025-05-09 22:23:52 1262 1

原创 [论文阅读]Deep & Cross Network for Ad Click Predictions

点击率（CTR）预测是一个大规模的问题，对数十亿美元的在线广告行业至关重要。在广告行业，广告商付钱给出版商，让他们在出版商的网站上展示自己的广告。一种流行的付费模式是按点击付费（CPC）模式，即只有当点击发生时才向广告商收费。因此，发行商的收益很大程度上依赖于准确预测点击率的能力。识别频繁预测的特征，同时探索未见或罕见的交叉特征是做出良好预测的关键。然而，web尺度的推荐系统的数据大多是离散的和分类的，这导致了一个大而稀疏的特征空间，这对特征探索是一个挑战。

2025-05-06 18:02:33 1303 1

原创 [Datawheel大模型应用开发]速通百炼RAG应用，上手AI Agent应用开发

流程和上面是一致的，下面是修改后的prompt# 角色你是一位专业的兽医，专注于猪和牛领域的疫病。凭借深厚的专业知识和丰富经验，依据用户提供的上下文信息精准分析用户提出的畜禽疫病相关问题，并给出全面、详细且专业的解答。## 技能 ###技能 1:精准把握用户需求 1 .当用户输入完整问题时，迅速准确理解需求点，运用专业知识分析解答。2 .若用户仅输入一个短语，礼貌追问用户，引导其提供该问题相关的详细背景信息，如养殖规模，养殖方式，具体什么品种等。3 .先归纳结论。

2025-04-13 10:56:23 510

原创 [论文阅读]Transformers without Normalization

在过去的十年里，归一化层已经巩固了它们作为现代神经网络最基本组成部分之一的地位。所有这些都可以追溯到2015年批归一化的发明（Ioffe和Szegedy，2015），这使得视觉识别模型的收敛速度更快、更好，并在随后几年迅速取得发展。从那以后，针对不同的网络架构或领域提出了许多归一化层的变体。今天，几乎所有的现代网络都使用规范化层，层归一化（layer Norm，或LN）（Ba et al., 2016）是最流行的一种，特别是在占主导地位的Transformer架构中。

2025-04-12 00:38:33 1308 1

原创 [论文阅读]PMC-LLaMA: Towards Building Open-source Language Models for Medicine

最近，大语言模型在自然语言理解方面展现了非凡的能力。尽管在日常交流和问答场景下表现很好，但是由于缺乏特定领域的知识，这些模型在需要精确度的领域经常表现不佳，例如医学应用。本文中，我们描述了构建一个专门为医学应用设计的强大的开源语言模型的流程，我们称其为PMC-LLaMA。我们的贡献有以下三方面：(i)我们系统性地调研了通用基础语言模型到医学领域的适应过程，这包括以数据为中心的知识注入，通过整合480万篇生物医学学术论文和3万本医学教科书，以及针对特定领域指令的全面微调；

2025-04-05 23:37:32 1597 4

原创 [论文阅读]FROM BEGINNER TO EXPERT: MODELING MEDICAL KNOWLEDGE INTO GENERAL LLMS

一篇医疗大模型的技术报告，了解医疗大模型的训练流程

2025-03-20 23:02:06 172

原创修复ubuntu下找不到音频设备的问题

用上面的代码输出始终为空，但是系统中又可以通过命令行录制音频，就怀疑是sounddevice的依赖有问题，重新编译安装依赖库，最终问题得以解决。默认情况下，sounddevice 可能尝试通过 PulseAudio 访问设备，导致冲突。步骤 2：重新编译 sounddevice 的 PortAudio 后端（最终修复步骤）tips:但是我的sounddevice显示设备始终为空，指定也没用。步骤 1：安装 PortAudio 的 ALSA 开发库。方法二：在代码中指定设备名称。方法一：通过环境变量设置。

2025-03-10 13:00:05 1178

原创 [Datawhale]Task03——Transformer的Decoder详解

Decoderde的任务是生成文本序列，需要注意的是解码器是自回归的，Decoder部分主要包括：Masked Multi-Head Attention 具有掩码的多头注意力机制 / Multi-Head Attention 多头注意力机制 / Feed Forward 前馈网络 / 分类器。

2025-02-22 00:48:31 221

原创 [Datawhale]Task03——Transformer的Encoder详解

Encoder的整体结构，由如下图左侧所示的多个Encoder子模块堆叠而成，其中，第一个 Encoder 子模块接收来自嵌入（Input Embedding）和位置编码（Position Embedding）组合后的输入（inputs）。除了第一个 Encoder 之外的其他 Encoder 子模块，它们从前一个 Encoder 接收相应的输入（inputs），这样就形成了一个顺序传递信息的链路。

2025-02-18 22:39:10 1198

原创 [Datawhale]Task02——Transformer相关理论详述

构成整体采用编码器-解码器架构添加了位置编码，使得模型能够区分序列中元素的相对位置多头注意力，可以同时关注输入序列的不同部分前馈网络，捕捉序列中元素之间的复杂关系的多功能组件。

2025-02-15 17:47:55 1214

原创 ubuntu下ollama/vllm两种方式在本地部署Deepseek-R1

今年过年，deepseek一下子爆火，导致我前段时间好好用的官网直接挤爆了，一直转圈圈到没心思过了，天天挂热搜，直接导致我的科研工作受阻（dog），好吧，话不多说，看看怎么在本地部署deepseek丝滑享受以及白嫖一下api体验>_<!部署环境：系统：ubuntu22.04显卡：一张4090,24G显存。

2025-02-12 16:15:08 2506 1

原创 [Datawhale]Task01——Transformer学习入门

Seq2Seq模型是Encoder-Decoder架构的一种具体应用Seq2Seq 更强调目的，Encoder-Decoder 更强调方法。

2025-02-12 15:05:20 796

原创 ollama模型一键满速下载

最近用ollama部署deepseek，发现模型下载很慢，一开始还能跑满，之后就开始掉速，实在受不了了，上网一搜，一大堆说怎么下载ollama的，零星有几个下载模型加速的，试了一圈，没有特方便的，github上找找吧，终于找到一个超好用的！github地址。

2025-02-12 14:00:53 1800 2

原创 [Datawheel]利用metaGPT多智能体框架实现智能体-2

在 MetaGPT 中，类 Action 是动作的逻辑抽象。用户可以通过简单地调用 self._aask 函数令 LLM 赋予这个动作能力，即这个函数将在底层调用 LLM api。

2025-01-25 17:20:01 1424 1

原创 [Datawheel]利用metaGPT多智能体框架实现智能体-1

MetaGPT 是一个基于大语言模型（如 GPT-4）的多智能体协作框架，旨在通过模拟人类团队的工作模式，让多个 AI 智能体分工合作，共同完成复杂的任务。它通过赋予不同智能体特定的角色（如产品经理、工程师、测试员等），并定义标准化的工作流程，显著提升了任务执行的效率和可靠性。将任务分解为需求分析、设计、开发、测试等标准化步骤，减少大模型常见的逻辑错误或“幻觉”。例如，开发软件时，产品经理先输出需求文档，工程师再编写代码，测试员验证功能。

2025-01-25 16:52:42 1894

原创 [Datawheel]利用Zigent框架编写智能体-2

定义 WriteDirectoryAction 类，继承自 BaseAction。该类的主要功能是生成一个教程的目录结构。具体来说，它通过调用大语言模型（LLM）来根据给定的主题和语言生成一个符合特定格式的目录。

2025-01-24 23:35:02 717

原创 How to learn html？基于chatGLM-b生成示例（仅供参考）

HTML文件通常由纯文本内容组成，内容被特定的标记符号包围。这些标记符号定义了文档的结构和格式。HTML不涉及布局、样式和颜色，这些问题可以通过CSS（Cascading Style Sheets，级联样式表）来解决。但是，HTML是网页制作的基础。HTML文档是一种文本文件，其内容以特定格式的标记来组织信息。文档类型声明（DOCTYPE）它位于HTML文档的第一行，用于告知浏览器文档所使用的HTML版本。HTML根元素（html）html元素包含整个HTML文档的内容，它定义了文档的类型为HTML。

2025-01-24 22:45:20 1167

原创 [Datawheel]利用Zigent框架编写智能体-1

Zigent 是一个多智能体框架，旨在简化和优化智能体的开发与部署。Zigent 是由自塾（Zishu.co）团队开发的一个开源项目。自塾在 2024 年推出了多个开源项目，其中包括 wow-agent，而 Zigent 是 wow-agent 项目的一部分，用于搭建 AI Agent 系统。Zigent 是一个基于 Agentlite 框架改进的智能代理开发框架。Agentlite 最初由 Salesforce AI Research 团队开发，是一个强大的 Agent 开发框架。

2025-01-24 20:06:19 1055

原创 [Datawheel]用Llama-index创建Agent、数据库对话Agent和RAG接入Agent

frompydanticimportField#导入Field，用于Pydantic模型中定义字段的元数据CustomLLM,#定义OurLLM类，继承自CustomLLM基类client:OpenAI=Field(default=None,exclude=True)#显式声明client字段。

2025-01-17 22:39:16 1704 2

原创 [Datawheel]wow-agent以及利用openai库搭建AI Agent

print("意图识别:",ai_response)print("意图识别:",ai_response)print("意图识别:",ai_response)print("意图识别:",ai_response)else:break。

2025-01-14 15:11:18 1129

原创 nn.CosineSimilarity如何理解？

总体来说还是比较好理解的，两个向量的相似度，就是看两个向量的夹角，如果夹角为0，则余弦值为1，说明两个向量相关，夹角为180，则说明两个向量负相关，而如果为90度，则表示向量正交无相关性。余弦相似度（Cosine Similarity）是一种用于衡量两个向量在空间中夹角的相似度的度量方法。它通过计算两个向量的余弦值来判断它们的相似性，值的范围通常在-1到1之间。dim (int, optional) – 计算余弦相似度的维度，默认为1。0 表示两个向量正交（没有相似性，方向完全不同）。

2024-12-04 08:43:11 427

原创 torchvison.models中包含的哪些模型？

1.模型AlexnetAlexNet 是一个具有 8 层的深度卷积神经网络，结构上比早期的卷积神经网络（如 LeNet）要深得多。它由 5 个卷积层（conv layers）和 3 个全连接层（fully connected layers）组成。AlexNet 的googlenetGoogLeNet 是 Google 在 2014 年提出的一种深度卷积神经网络架构，它在 ImageNet 大规模视觉识别挑战赛中取得了非常优秀的成绩，获得了 2014 年的冠军。GoogLeNet 的最大创新点之一是

2024-12-03 21:11:59 1375

mineru+notion,自动化pdf转md文件上传知识库

YOLOv7源代码+权重文件

机器学习数据集猪头部识别yolo格式

空空如也