Paper论文精读：大模型+多模态+图像领域_OpenAppAI的博客-优快云博客

Paper论文精读：大模型+多模态+图像领域

关注

文章平均质量分 96

对论文进行研究，从研究动机出发掌握作者的故事线，理解论文的核心贡献、实现方法、网络结构、训练方式、模型效果等知识；论文积少成多，加深对深度学习领域的理解

关注数：文章数：25 文章阅读量：35994 文章收藏量：568

作者: OpenAppAI

让AI成为自己的奇迹

展开

专栏收录文章

《DAIL-SQL》论文精读：2025年在Spider的SOTA方法（Text-to-SQL任务）

文章讲解了LLMs如何系统应用到Text-to-SQL任务当中

原创 2025-05-21 09:15:00 · 800 阅读 · 0 评论
《Opensearch-SQL》论文精读：2025年在BIRD的SOTA方法（Text-to-SQL任务）

本文详细介绍了OpenSearch-SQL的实现方法

原创 2025-05-19 19:00:00 · 1039 阅读 · 0 评论
一文总结DeepSeek-V3论文的所有创新点和技术贡献

本文对DeepSeek-V3的创新点和技术贡献做一个总结

原创 2025-02-11 07:00:00 · 1311 阅读 · 0 评论
《DeepSeek》系列1：什么是DeepSeek？

文字介绍了DeepSeek及其DeepSeek系列模型，对没接触过DeepSeek的人做一个简单科普，后续会继续深入分析DeepSeek的技术创新

原创 2025-02-05 07:00:00 · 1508 阅读 · 0 评论
《CLIP》论文精读：对比学习+大规模图文数据+自然语言为监督信号+VIT = CLIP

文字对CLIP论文的核心思想和方法进行了论文精读，核心思想对比学习+大规模图文数据+自然语言为监督信号+VIT=CLIP

原创 2025-01-28 07:00:00 · 2287 阅读 · 0 评论
《Vision Transformer》论文精读：在大量足够数据量的条件下纯Transformer也能在图像分类任务中比肩SOTA

本文对论文VIT进行了详细的解读，论文表示：在数据集足够大的前提下，纯Transformer也能在图像分类任务、迁移任务中取得优异成绩

原创 2025-01-27 07:00:00 · 1458 阅读 · 0 评论
《AnimateDiff》论文精读: 将运动动态添加到SD图像生成模型来生成动画视频

文章介绍了一种可以插拔的动画视频生成技术，通过将运动状态添加到高质量的个性化文本图像生成模型中实现

原创 2025-01-21 07:00:00 · 788 阅读 · 0 评论
《Stable Video Diffusion》：SVD，2023年开源视频生成模型中的佼佼者！

在这篇文章中，我将面向之前已经熟悉StableDiffusion(SD)的读者，简要解读SVD的论文。

原创 2025-01-20 07:00:00 · 1315 阅读 · 0 评论
《Transformer》论文精读：只用注意力机制，Transformer奠定了大模型网络架构的基石

Attention Is All You Need (Transformer) 是当今深度学习初学者必读的一篇论文

原创 2024-12-31 07:00:00 · 1738 阅读 · 0 评论
《DDPM》论文精读：开创了Stable Diffusion扩散AI绘画新时代

文章浅入深地对最基础的去噪扩散概率模型（Denoising Diffusion Probabilistic Models, DDPM）进行讲解。介绍l扩散模型生成图像的基本原理，再用简单的数学语言对扩散模型建模

原创 2024-12-30 07:00:00 · 1167 阅读 · 4 评论
《VQ-VAE》：Stable Diffusion设计的架构源泉

VQ-VAE为图像生成类任务提供了一种新的思路。VQ-VAE的这种建模方法启发了无数的后续工作，包括声名远扬的Stable Diffusion

原创 2024-12-23 21:00:00 · 1603 阅读 · 0 评论
《LoRA-IR》：2024年10月中科院自动所提出了一种用于多种修复图像恶化退化问题的LORA，效果拔群

论文介绍一种名为`LoRA-IR`的新方法，该方法旨在解决图像恢复中的复杂和多样化退化问题。包括去模糊、去雾、JPEG伪影去除、低光增强、去噪、雨滴去除、去雨、阴影去除、除雪和图像修复等等问题。

原创 2024-11-04 08:00:00 · 897 阅读 · 0 评论
《Qwen2-VL》论文精读【下】：发表于2024年10月 Qwen2-VL 迅速崛起 | 性能与GPT-4o和Claude3.5相当

本文属于第二篇的Qwen2-VL介绍，详细介绍了Qwen2-VL的方法部分，包括训练阶段、训练数据格式、训练硬件资源、改进创新点等内容。

原创 2024-11-03 06:33:00 · 1518 阅读 · 0 评论
《Qwen2-VL》论文精读【上】：发表于2024年10月 Qwen2-VL 迅速崛起 | 性能与GPT-4o和Claude3.5相当

Qwen2-VL-72B模型在各种多模态基准测试中，与GPT-4o和Claude3.5-Sonnet等领先模型相比，实现了相当的结果，超越了其他通用模型。这篇是论文的上集，下集会补充详细的技术实现原理

原创 2024-11-02 22:23:03 · 2784 阅读 · 0 评论
《Baichuan-Omni》论文精读：第1个7B全模态模型 | 能够同时处理文本、图像、视频和音频输入

Baichuan-Omni是一个7B开源高性能的全模态模型，在文本语言、图像理解、视频理解、音频理解上都表现出非常有竞争力的能力

原创 2024-11-02 05:49:52 · 1376 阅读 · 0 评论
《Mini-internVL》论文阅读：OpenGVLab+清华/南大等开源Mini-InternVL | 1~4B参数，仅用5%参数实现90%性能

OpenGVLab+清华/南大等开源Mini-InternVL | 1~4B参数，仅用5%参数实现90%性能

原创 2024-10-31 20:31:29 · 1454 阅读 · 2 评论
【综述整理】2015年至2022年图像美学质量评估数据集【附下载链接】

文章介绍了2015年至2022年以来著名的图像美学评估、图像质量评估的数据集

原创 2024-10-26 14:21:41 · 2310 阅读 · 0 评论
《PP-OCRv1》论文精读：PaddleOCR是目前SOTA级别的OCR开源技术(截止2024年10月）

论文作者使用了非常多的手段优化了OCR的性能，并做了很多消融实验进行证明

原创 2024-10-20 11:03:28 · 2385 阅读 · 0 评论
《YOLO4》论文精读：YOLOv4给研究人员做了一次非常不错的技术汇总！

YOLOv4组合了诸家之所长，让YOLO系列更上一层楼

原创 2024-10-18 14:20:00 · 1211 阅读 · 0 评论
《YOLO3》论文精读：3项优化和Darknet-53让YOLO3奠定了YOLO系列的基石

3项优化措施和Darknet-53让YOLO3奠定了YOLO系列的基石，正式开启了后续的YOLO辉煌故事

原创 2024-10-16 16:34:51 · 1158 阅读 · 0 评论
《EAT》论文精度：新的图像美学质量评估SOTA的论文(截止2024年10月)

论文提出了新的网络结构让图像美学质量评估实现了新SOTA

原创 2024-10-16 10:20:27 · 1556 阅读 · 0 评论
《YOLO2》论文精读：7项措施和联合训练让YOLO1更好、更快、更强大

YOLO2探讨了让YOLO1性能更加出众的多种技术和方法，但是没有做出革命性的变革

原创 2024-10-14 20:19:40 · 751 阅读 · 0 评论
《YOLO1》论文精读：第一次实现端到端的目标检测

介绍了最经典的YOLO1核心思想，网络结构和损失函数，对后面YOLO系列文章做好铺垫和基础

原创 2024-10-13 11:59:45 · 1353 阅读 · 0 评论
《ASL》论文精读：用ASL损失改善多标签分类的样本不平衡

ASL是一种优秀的多标签分类的损失函数

原创 2024-10-12 10:14:10 · 1079 阅读 · 0 评论
《Query2Label》论文精读：一种简单而有效的方法来解决多标签分类问题

论文首次将Transformer decoder作为分类头，实现了一种简单高效的多标签分类方法

原创 2024-10-11 20:25:27 · 1160 阅读 · 0 评论

Paper论文精读：大模型+多模态+图像领域

作者: OpenAppAI

《DAIL-SQL》论文精读：2025年在Spider的SOTA方法（Text-to-SQL任务）

《Opensearch-SQL》论文精读：2025年在BIRD的SOTA方法（Text-to-SQL任务）

一文总结DeepSeek-V3论文的所有创新点和技术贡献

《DeepSeek》系列1：什么是DeepSeek？

《CLIP》论文精读：对比学习+大规模图文数据+自然语言为监督信号+VIT = CLIP

《Vision Transformer》论文精读：在大量足够数据量的条件下纯Transformer也能在图像分类任务中比肩SOTA

《AnimateDiff》论文精读: 将运动动态添加到SD图像生成模型来生成动画视频

《Stable Video Diffusion》：SVD，2023年开源视频生成模型中的佼佼者！

《Transformer》论文精读：只用注意力机制，Transformer奠定了大模型网络架构的基石

《DDPM》论文精读：开创了Stable Diffusion扩散AI绘画新时代

《VQ-VAE》：Stable Diffusion设计的架构源泉

《LoRA-IR》：2024年10月中科院自动所提出了一种用于多种修复图像恶化退化问题的LORA，效果拔群

《Qwen2-VL》论文精读【下】：发表于2024年10月 Qwen2-VL 迅速崛起 | 性能与GPT-4o和Claude3.5相当

《Qwen2-VL》论文精读【上】：发表于2024年10月 Qwen2-VL 迅速崛起 | 性能与GPT-4o和Claude3.5相当

《Baichuan-Omni》论文精读：第1个7B全模态模型 | 能够同时处理文本、图像、视频和音频输入

《Mini-internVL》论文阅读：OpenGVLab+清华/南大等开源Mini-InternVL | 1~4B参数，仅用5%参数实现90%性能

【综述整理】2015年至2022年图像美学质量评估数据集【附下载链接】

《PP-OCRv1》论文精读：PaddleOCR是目前SOTA级别的OCR开源技术(截止2024年10月）

《YOLO4》论文精读：YOLOv4给研究人员做了一次非常不错的技术汇总！

《YOLO3》论文精读：3项优化和Darknet-53让YOLO3奠定了YOLO系列的基石

《EAT》论文精度：新的图像美学质量评估SOTA的论文(截止2024年10月)

《YOLO2》论文精读：7项措施和联合训练让YOLO1更好、更快、更强大

《YOLO1》论文精读：第一次实现端到端的目标检测

《ASL》论文精读：用ASL损失改善多标签分类的样本不平衡

《Query2Label》论文精读：一种简单而有效的方法来解决多标签分类问题