开始学AI-优快云博客

原创【矩池云】YOLOv3~YOLOv5训练红外小目标数据集

YOLO系列算法，红外小目标检测，从数据集处理到完整实现

2023-05-31 13:58:51 4730 12

原创无人机图像语义分割数据集（aeroscapes数据集）使用方法

数据集介绍aeroscapes数据集下载链接AeroScapes 航空语义分割基准包括使用商用无人机在 5 到 50 米的高度范围内捕获的图像。该数据集提供 3269 张 720p 图像和 11 个类别的真实掩码。数据加载dataloder写法（基于pytorch）由于该数据集提供了掩码图，因此不需要进行掩码图转换。下载完成后，文件结构如下：ImageSets文件夹：存放了两个txt文件，划分了训练集和验证集。JPEGImages文件夹：存放了RGB图像。SegmentationClass

2021-11-22 17:20:09 23202 11

原创无人机语义分割数据集（Semantic Drone Dataset）使用方法

数据集介绍Semantic Drone Dataset数据集下载地址该语义无人机数据集专注于城市场景的语义理解，以提高无人机自主飞行和着陆程序的安全性。该图像描绘了在距地面 5 至 30 米的高度从最低点（鸟瞰）视角拍摄的 20 多座房屋。高分辨率相机用于获取尺寸为 6000x4000px (24Mpx) 的图像。训练集包含 400 张公开可用的图像，测试集包含 200 张私有图像。该语义分割数据集包括20个种类：树、草、其他植被、污垢、碎石岩石、水、铺砌面积、水池、人狗、车、自行车、屋顶、墙

2021-11-21 22:21:09 7214 11

原创 ChatClimate：让对话式人工智能立足于气候科学

大型语言模型（Large Language Models, LLMs）在问答任务中已取得显著进展，但幻觉（hallucination，指生成虚假或不准确信息的现象）和信息过时等问题依然存在。这些问题在气候变化等领域尤为关键，因为在这类领域中，及时获取可靠信息至关重要。一种解决方案是让这些模型能够访问外部的、科学准确的信息源，以提升其知识储备与可靠性。

2025-10-21 17:11:47 131

原创针对跨学科环境挑战的大语言模型微调

这两个指标在自然语言处理领域应用广泛，能够反映生成文本与参考文本之间的相似度，进而为文本生成质量提供客观衡量标准。其中，BLEU 侧重于文本间的匹配准确性，适用于评估生成文本在词汇和句法层面的精确性 [43]；而 ROUGE 则是衡量文本覆盖度与连贯性的指标，通过 ROUGE-1、ROUGE-2 和 ROUGE-L 三个子指标，从多个层面实现综合评估 [44]。其次**，“大语言模型作为评判者” 方法借助大语言模型对生成结果进行评估，可提升评估的客观性与一致性 [45]。

2025-10-20 11:15:33 145

原创【Docker技术】docker-compose.yml与Dockerfile解析

Dockerfile和docker-compose.yml协同工作构建应用环境：Dockerfile定义镜像构建步骤（基础镜像、依赖安装、代码复制等），而docker-compose.yml配置运行时参数（端口映射、数据卷、环境变量）。执行"docker-compose up --build -d"命令时，会先根据Dockerfile构建镜像，再按docker-compose.yml配置启动容器服务。两者共同完成应用从构建到部署的全流程，其中Dockerfile负责"制造&qu

2025-10-09 14:59:26 598

原创【Datawhale AI夏令营】多模态RAG财报问答挑战赛：学习笔记与上分思考

本文分享了针对多模态RAG赛题的解题思路和优化策略。作者从初识赛题的迷茫出发，通过分析评审规则明确了"可溯源"的核心要求，梳理出信息转化、精准定位、忠实回答和协同优化四大难点。基于文本RAG的Baseline方案，提出三步优化路径：首先优化Prompt和分块策略；然后引入MinerU解析引擎和VLM模型实现"伪多模态"；最后通过重排模型和多模态生成模型进行高级优化。整个方案采取迭代式开发策略，从基础文本RAG逐步升级到多模态解决方案，在保证系统稳定性的同时不断提升性能

2025-08-09 22:25:09 1023

原创【Datawhale AI夏令营】用户意图理解和知识问答挑战赛73分——模型数据全流程公开

摘要：本文分享了Datawhale AI夏令营大模型微调赛事的参赛经验。作者目前以70分排名第三，采用Task2笔记中的蒸馏思路优化小模型性能，重点探讨了数据设计（单字段查询、多条件筛选等6类问题）与准确性验证策略。针对比赛特点，作者调整策略严格筛选数据、均衡类别分布以避免长尾效应，并强调实验验证的重要性。文中反思了资源消耗问题，提出后续将聚焦数据探索与参数优化，同时呼吁官方提供更多资源支持。最后表达了对参赛者的祝福和交流意愿。（149字）

2025-07-26 10:38:36 1247

原创大模型显存计算

它们是模型从大量文本数据中学习的结果，不仅编码token的身份，还编码其与其他token的关系。token限制由模型的架构决定。在文本上下文中，一个Token可以是一个单词、一个单词的一部分（子词），甚至是一个字符——这取决于tokenization 的过程。例如，如果您需要微调大小为 1024×512 的参数，使用选择rank为 8 的 LoRA，您只需要微调以下数量的参数：1024×8 + 512×8。在训练大型语言模型时，参数是 LLM 的特征，经过调整可以优化模型预测序列中下一个token的能力。

2025-04-10 20:20:13 552

原创大模型之模型参数量估计/GPU计算时间计算

模型的参数越多，其复杂度就越高，能够处理的数据也越多。它们是模型从大量文本数据中学习的结果，不仅编码token的身份，还编码其与其他token的关系。反向传播、Adam 优化和 Transformer 架构，训练所需的内存通常是相同大小的 LLM 推理所需内存的 3 到 4 倍。例如，如果您需要微调大小为 1024×512 的参数，使用选择rank为 8 的 LoRA，您只需要微调以下数量的参数：1024×8 + 512×8。模型的参数越多，其复杂度就越高，能够处理的数据也越多。

2025-04-10 20:14:22 1095

原创【Windows+Cursor】从0到1配置Arxiv MCP Server，实现论文自主查询、下载、分析、综述生成

4.在「Cursor Settings」菜单栏中点击「MCP」，然后点击「+ Add new global MCP server」按钮，会弹出一个mcp.json文件，把arxiv-mcp-server中的配置信息添加到json文件中去。5. 配置自己的API KEY，其余模型去掉。3. 下载0.47版本以上的Cursor。2. git clone 代码。将安装路径添加到环境变量。

2025-04-02 16:27:02 1239

原创扩散模型——为什么时间步的嵌入非常重要？

时间步嵌入帮助模型理解扩散过程中的不同阶段，并为模型提供每个时间步的高维特征表示。使用正余弦编码作为时间步嵌入，不仅能够捕捉时间步中的周期性变化，还能够提供多尺度的特征表示，帮助模型在生成过程中做出更加精确的去噪决策。同时，它不会增加模型的训练参数，保证了效率和稳定性。

2024-10-12 09:47:02 4055

原创大模型微调4：Alpaca模型微调、Adalora、Qlora

4. pre-train的时候加入Instruction data，接着在SFT上再使用Instruction Data。2. 通用Instruction data和私有 Instruction data混合，可以解决某些能力的遗忘。3. 收集大量的Finetune Data：一万到十万，高质量7K>一般质量30K。通用的Instruction data（适合我们场景的）7B、13B、33B、65B四种基座模型（一般从小的开始训）结构上与Transformer经典结构差距很小。

2024-09-28 17:47:51 538

原创大模型开发工具库Hugging Face Transformers

• Hugging Face Transformers 快速入门Hugging Face Transformers 是一个 Python库，允许用户下载和训练机器学习（ML）模型。它最初被创建用于开发语言模型，现在功能已扩展到包括多模态、计算机视觉和音频处理等其他用途的模型。1. 丰富的预训练模型：提供广泛的预训练模型，如BERT、GPT、T5等，适用于各种NLP任务。2. 易于使用：设计注重易用性，使得即使没有深厚机器学习背景的开发者也能快速上手。

2024-09-26 09:12:35 555

原创 LLM—各种任务的训练数据集格式

LLM各种任务的训练数据集格式。

2024-09-24 14:25:09 2381

原创 Windows 查找特定进程的ID并杀死

OSName : Microsoft Windows 11 专业版|C:\windows|\Device\Harddisk1\Partition3。CommandLine : "D:\Users\HP\anaconda3\envs\openai\python.exe" 分析用户信息.py。杀死特定进程 15832为上述的ProcessId。"*分析用户信息.py*" 换为自己的文件名。

2024-09-23 10:04:41 1008

原创关于Resume训练精度对齐的思考

如果想要精度对齐，需要Resume 正确的 state_dict，正确的学习率调度器，正确的恢复优化器的状态，同时还需要设置相同的随机种子。

2024-06-20 14:54:09 615

原创 ZeRO-3、模型并行、流水线并行适用情况

ZeRO-3适用于参数量大，需要显存优化的情况。模型并行适用于计算量大，但每层参数量相对较少的情况。流水线并行适用于计算量大且需要高效利用多 GPU 资源的情况。这三种方法可以根据具体的模型和训练需求进行选择和组合使用，以达到最优的显存利用和计算效率。

2024-05-23 17:29:46 1509

原创【唇形同步】Diff2Lip: Audio Conditioned Diffusion Models for Lip-Synchronization

嘴唇同步的任务（唇同步）寻求将人脸的嘴唇与不同的音频相匹配。它在电影行业以及创建虚拟化身和视频会议中有各种应用。这是一个具有挑战性的问题，因为人们需要同时引入详细、逼真的嘴唇动作，同时保持身份、姿势、情绪和图像质量。许多试图解决这个问题的先前方法由于缺乏完整的上下文信息而遭受图像质量下降。在本文中，我们提出了Diff2Lip，这是一种基于音频条件扩散的模型，它能够在保持这些质量的同时在野外进行嘴唇同步。我们在Voxceleb2上训练我们的模型，这是一个视频数据集，包含狂野的会说话的人脸视频。

2024-05-10 16:50:26 2378

原创 OpenSora代码理解（一）Video Embedding

这段代码定义了一个用于将视频数据划分为块并嵌入到高维空间的类。下面我们会一步步分析forward。

2024-05-08 08:56:58 859

原创【文生视频】InternVid: A Large-scale Video-Text Dataset forMultimodal Understanding and Generation

我们的核心贡献是开发一种可扩展的方法，用大型语言模型（LLM）自主构建高质量的视频文本数据集，提供视频文本表示学习模型ViCLIP。目前的研究依赖于HowTo100M[2]、HD-VILA[3]和YTTemporal[4，5]等数据集，这些数据集的文本是使用自动语音识别（ASR）生成的。尽管规模很大，但这些数据集在视频和相应的文本描述之间的语义相关性往往很低[2-5]。实证研究表明，改善这种相关性（例如，将视频与字幕对齐以提高其匹配性）显著有利于视频检索和视频问答等下游任务[6]。文本视频对齐非常重要。We

2024-04-25 17:38:01 2233 2

原创【VSCode调试技巧】Pytorch分布式训练调试

2、配置launch.josn文件，按照正确的参数顺序，填入args参数，注意区分位置参数和可选参数，debug文件前面的参数是分布式训练的参数，后面为该文件所需的参数。这个顺序和命令行执行的顺序一致，所以可参考命令行的顺序。1、找到控制分布式训练的启动脚本，在自己的虚拟环境的/lib/python3.9/site-packages/torch/distributed/launch.py中。最近遇到个头疼的问题，对于单机多卡的训练脚本，不知道如何使用VSCode进行Debug。

2024-04-24 15:02:41 1839 2

原创【图像拼接精读】Parallax-Tolerant Unsupervised Deep Image Stitching

这些方法主要依赖于越来越复杂的几何特征（如点、线、边缘等）来提高性能。但是，这些手工制作的特征通常只适用于具有充足几何结构的特定自然场景。这意味着，当场景缺乏明显的几何特征或纹理时，这些方法的效果可能会大大降低。

2024-01-29 11:17:06 3333

原创最小二乘法

来源：

2023-10-30 16:45:19 1266

原创 DMNet复现(二)之模型篇：Density map guided object detection in aerial image

以前用Swin Transformer Tiny训练了40epoch的，官方用的Faster RCNN，这里先用Swin Transformer Tiny进行测试。

2023-09-19 18:25:51 982 11

原创 DMNet复现(一)之数据准备篇：Density map guided object detection in aerial image

DMNet论文复现（一）：数据准备

2023-09-18 14:29:31 1504 25

原创【MMDetection】bug记录

以下命令可以打印出配置文件所有信息，如打印configs\yolox\yolox_s_8xb8-300e_coco.py。

2023-09-08 14:08:46 1615

原创 linux常会用到的命令

复制文件时排除某个文件夹，如从源路径中排除data。搜索含有指定字符的进程信息，如radar。删除指定后缀的文件，如png。

2023-08-23 13:42:06 317

原创关于Transformer中的位置编码

在图像处理中，位置编码的引入与自然语言处理中的方法有所不同，但基本的原理是相似的：为模型提供空间位置信息。例如，对于一个给定的位置，其与其他位置的相对位置编码将表示它们之间的距离或关系。绝对位置编码是为序列中的每个位置分配一个固定的编码，这个编码表示该位置在整个序列中的确切位置。与位置编码不同，位置嵌入是在模型训练过程中学习的，而不是预先定义的。在某些应用中，可能需要同时使用多种方法来捕获位置信息，例如，结合绝对位置编码和相对位置编码。为图像中的每个像素或区域分配一个固定的编码，表示其在图像中的绝对位置。

2023-08-18 14:23:32 3037

原创目标检测之3维合成

现在有一系列的图片，图片之间可以按照z轴方向进行排列。图片经过了目标检测，输出了一列写的检测框，现在的需求是将检测框按类别进行合成，以在3维上生成检测结果。思路：将图片按照z轴方向排列，以z轴索引作为检测框的z值。等同于输入为（x, y, w, h, z, class_id），可以计算得到每个检测框的中心点来标定这个框（x_center, y_center, z, class_id）。然后可以通过聚类算法在4维空间上进行聚类，最后取出聚类出的每一类的点的xyz的最大值与最小值和class_id来生成

2023-07-28 10:47:55 909

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

人大 大模型书籍 与英文综述文章的定位不同，中文版书籍更注重为大模型技术的入门读者提供讲解

大模型信息抽取 程序模板

ResNet18_CIFAR10.rar

BiSeNet.zip

color150.mat

AlexNet手写数字识别.rar

手写数字识别.rar

deeplabv3.rar

蓝桥杯第九届彩灯控制器源码

空空如也

人大大模型书籍与英文综述文章的定位不同，中文版书籍更注重为大模型技术的入门读者提供讲解

大模型信息抽取程序模板