Zhijun.li@Studio-优快云博客

原创 YOLOv8教程系列：一、使用自定义数据集训练YOLOv8模型（详细版教程，你只看一篇-＞调参攻略），包含环境搭建/数据准备/模型训练/预测/验证/导出等

YOLOv8教程系列：一、使用自定义数据集训练YOLOv8模型（详细版教程，你只看一篇->调参攻略），包含环境搭建/数据准备/模型训练/预测/验证/导出等

2023-01-13 15:30:31 240737 318

原创基于ERNIE 4.5的多智能体协作的自动化视频舆情分析报告生成器

本文介绍了一个多智能体协作的自动化视频舆情分析系统，能够从非结构化视频中提取结构化洞察。该系统通过AI智能体团队协作，实现视频内容的规模化处理、深度多模态理解和智能提炼。以汽车行业为例，该系统可自动分析新车评测视频，生成包含量化数据和深度洞察的专业报告。文章详细展示了系统的技术实现，包括环境配置、核心库导入、预处理模块以及音频转录等功能，为商业智能提供了高效解决方案。

2025-08-22 11:15:13 594

原创【LLaMA-Factory 实战系列】四、API 篇 - 部署推理服务与批量调用实战

模型训练好了如何使用？本篇将教您如何将微调后的模型一键部署为兼容 OpenAI 格式的高性能 API 服务。我们将对比 huggingface、vllm 等不同推理后端的优劣，并提供一个完整的 Python 脚本，演示如何批量调用 API 处理文件夹中的全部图片。学完本篇，您将掌握将模型转化为生产力工具、融入实际应用的核心技能。

2025-06-25 16:27:20 1400

原创【LLaMA-Factory 实战系列】三、命令行篇 - YAML 配置、高效微调与评估 Qwen2.5-VL

告别手动点击，拥抱专业高效！本篇将带您从 WebUI 迈向更强大、可复现的命令行工作流。我们将学习如何使用 .yaml 配置文件精确控制训练、评估与预测的全过程，实现实验的自动化与版本化管理。这是在服务器上进行高效开发、严谨复现研究成果，并迈向专业化模型工程的关键一环。

2025-06-24 11:04:21 1210

原创【LLaMA-Factory 实战系列】二、WebUI 篇 - Qwen2.5-VL 多模态模型 LoRA 微调保姆级教程

想微调大模型却被复杂的代码劝退？本篇是您的“保姆级”入门教程！我们将借助 LLaMA-Factory 直观的 WebUI 图形化界面，以经典的宝可梦图文数据集为例，一步步引导您完成强大的 Qwen2.5-VL 多模态模型的 LoRA 微调。您将无需编写一行代码，轻松迈出模型定制的第一步，并直观理解学习率、批处理大小等核心参数的意义。

2025-06-23 16:02:25 2825

原创【LLaMA-Factory 实战系列】一、数据准备篇 - 从文本到多模态的完整流程

万丈高楼平地起，优质数据是模型成功的基石。本篇将作为系列开端，手把手教您如何为 LLaMA-Factory 准备高质量的训练数据。我们将覆盖从简单的文本对话到复杂的图文混合数据集的完整制作流程，详细解析 ShareGPT 格式与 dataset_info.json 配置文件的每一个细节，为后续的模型微调打下最坚实的基础。

2025-06-20 10:04:35 1279 2

原创【读书笔记】Vision Matters: Simple Visual Perturbations Can Boost Multimodal Math Reasoning

【读书笔记】Vision Matters: Simple Visual Perturbations Can Boost Multimodal Math Reasoning

2025-06-18 08:35:12 615

原创【读书笔记】Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start

【读书笔记】Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start

2025-06-17 12:41:29 864

原创【读书笔记】More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models

【读书笔记】More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models

2025-06-17 08:17:03 859

原创 vLLM Serve 命令参数详解

vLLM Serve 命令参数详解

2025-05-13 16:12:30 1468

原创【docker好用系列】llama-factory环境配置

【docker好用系列】llama-factory环境配置

2025-03-01 20:07:08 1270 1

原创【Janus-Pro报告解读】Unified Multimodal Understanding and Generation with Data and Model Scaling

【Janus-Pro报告解读】Unified Multimodal Understanding and Generation with Data and Model Scaling

2025-02-06 16:22:03 939

原创【DeepSeek-VL2报告解读】Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding

【DeepSeek-VL2报告解读】Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding

2025-02-06 13:52:22 2057

原创使用 Conda 环境创建 Docker 镜像的完整指南

使用 Conda 环境创建 Docker 镜像的完整指南

2024-12-25 21:19:15 1421

原创精准提升：从94.5%到99.4%——目标检测调优全纪录

🔍 精准提升：从94.5%到99.4%——目标检测调优全纪录

2024-12-20 13:28:09 1346

原创联合目标检测与图像分类提升数据不平衡场景下的准确率

联合目标检测与图像分类提升数据不平衡场景下的准确率

2024-12-20 11:26:27 1055 2

原创【图像分类实用脚本】数据可视化以及高数量类别截断

图像分类时，如果某个类别或者某些类别的数量远大于其他类别的话，模型在计算的时候，更倾向于拟合数量更多的类别；因此，观察类别数量以及对数据量多的类别进行截断是很有必要的。

2024-12-19 13:56:22 668

原创【离线环境迁移】使用Conda打包和还原Python环境指南

【离线环境迁移】使用Conda打包和还原Python环境指南

2024-12-11 10:42:32 832

原创【解决paddlemix报错】ModuleNotFoundError: No module named ‘paddlemix.models.audioldm2‘

【解决paddlemix报错】ModuleNotFoundError: No module named 'paddlemix.models.audioldm2'

2024-12-05 21:17:24 352

原创【多模态论文分享】Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge

文章提出了一种新的视觉提示方法，旨在将细粒度的外部知识（来自实例分割和OCR模型的信息）直接嵌入到多模态大型语言模型（MLLMs）中，以增强其对图像中细粒度或局部化视觉元素的理解能力。

2024-12-02 13:47:18 874

原创 Mac下的vscode远程ssh免密码登录

Mac下的vscode远程ssh免密码登录（同理可迁移至windows及linux系统）

2024-11-21 14:01:14 1767

原创【基于深度学习的王者荣耀精彩视频方案详解】

基于深度学习的王者荣耀精彩视频方案详解

2024-11-09 17:24:40 220

原创从零到部署指南：Ubuntu上安装Boost和Crow库

从零到部署指南：Ubuntu上安装Boost和Crow库

2024-04-08 11:03:04 910

原创【实战解析】YOLOv9全流程训练至优化终极指南

YOLOv9 引入了可编程梯度信息 (PGI) 和广义高效层聚合网络 (GELAN)等开创性技术，标志着实时目标检测领域的重大进步。该模型在效率、准确性和适应性方面都有显著提高，在 MS COCO 数据集上树立了新的标杆。

2024-04-08 10:36:27 8329 11

原创【最佳实践】高效调优目标检测模型

在深入繁复的计算机视觉领域，目标检测无疑是一项挑战且结果至关重要的任务。它在无人驾驶、智能监控行业中扮演着核心角色，直接影响到系统的性能和可靠性。而在这个过程中，调整参数是实现高效、精准目标检测的关键步骤。

2024-04-02 17:51:35 2579

在计算机视觉和自然语言处理领域，视觉问答（VQA）是一个重要的任务，旨在让计算机理解图像内容并回答关于图像的问题。为了促进和评估多模态模型在视觉问答任务上的表现，研究人员构建了多个丰富的数据集。本文将介绍几个主要的视觉问答数据集，包括VQA v2.0、VizWiz-VQA、GQA、POPE、MM-VET、MME、MMBench和SEED-Bench。我们将分析这些数据集的特点、构建方式以及在评估多模态模型方面的作用，旨在为研究人员提供对多模态视觉问答数据集的全面认识。

2024-03-25 14:55:21 4795 1