
Paper论文精读:大模型+多模态+图像领域
文章平均质量分 96
对论文进行研究,从研究动机出发掌握作者的故事线,理解论文的核心贡献、实现方法、网络结构、训练方式、模型效果等知识;论文积少成多,加深对深度学习领域的理解
OpenAppAI
让AI成为自己的奇迹
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《DAIL-SQL》论文精读:2025年在Spider的SOTA方法(Text-to-SQL任务)
文章讲解了LLMs如何系统应用到Text-to-SQL任务当中原创 2025-05-21 09:15:00 · 800 阅读 · 0 评论 -
《Opensearch-SQL》论文精读:2025年在BIRD的SOTA方法(Text-to-SQL任务)
本文详细介绍了OpenSearch-SQL的实现方法原创 2025-05-19 19:00:00 · 1039 阅读 · 0 评论 -
一文总结DeepSeek-V3论文的所有创新点和技术贡献
本文对DeepSeek-V3的创新点和技术贡献做一个总结原创 2025-02-11 07:00:00 · 1311 阅读 · 0 评论 -
《DeepSeek》系列1:什么是DeepSeek?
文字介绍了DeepSeek及其DeepSeek系列模型,对没接触过DeepSeek的人做一个简单科普,后续会继续深入分析DeepSeek的技术创新原创 2025-02-05 07:00:00 · 1508 阅读 · 0 评论 -
《CLIP》论文精读:对比学习+大规模图文数据+自然语言为监督信号+VIT = CLIP
文字对CLIP论文的核心思想和方法进行了论文精读,核心思想对比学习+大规模图文数据+自然语言为监督信号+VIT=CLIP原创 2025-01-28 07:00:00 · 2287 阅读 · 0 评论 -
《Vision Transformer》论文精读:在大量足够数据量的条件下纯Transformer也能在图像分类任务中比肩SOTA
本文对论文VIT进行了详细的解读,论文表示:在数据集足够大的前提下,纯Transformer也能在图像分类任务、迁移任务中取得优异成绩原创 2025-01-27 07:00:00 · 1458 阅读 · 0 评论 -
《AnimateDiff》论文精读: 将运动动态添加到SD图像生成模型来生成动画视频
文章介绍了一种可以插拔的动画视频生成技术,通过将运动状态添加到高质量的个性化文本图像生成模型中实现原创 2025-01-21 07:00:00 · 788 阅读 · 0 评论 -
《Stable Video Diffusion》:SVD,2023年开源视频生成模型中的佼佼者!
在这篇文章中,我将面向之前已经熟悉StableDiffusion(SD)的读者,简要解读SVD的论文。原创 2025-01-20 07:00:00 · 1315 阅读 · 0 评论 -
《Transformer》论文精读:只用注意力机制,Transformer奠定了大模型网络架构的基石
Attention Is All You Need (Transformer) 是当今深度学习初学者必读的一篇论文原创 2024-12-31 07:00:00 · 1738 阅读 · 0 评论 -
《DDPM》论文精读:开创了Stable Diffusion扩散AI绘画新时代
文章浅入深地对最基础的去噪扩散概率模型(Denoising Diffusion Probabilistic Models, DDPM)进行讲解。介绍l扩散模型生成图像的基本原理,再用简单的数学语言对扩散模型建模原创 2024-12-30 07:00:00 · 1167 阅读 · 4 评论 -
《VQ-VAE》:Stable Diffusion设计的架构源泉
VQ-VAE为图像生成类任务提供了一种新的思路。VQ-VAE的这种建模方法启发了无数的后续工作,包括声名远扬的Stable Diffusion原创 2024-12-23 21:00:00 · 1603 阅读 · 0 评论 -
《LoRA-IR》:2024年10月中科院自动所提出了一种用于多种修复图像恶化退化问题的LORA,效果拔群
论文介绍一种名为`LoRA-IR`的新方法,该方法旨在解决图像恢复中的复杂和多样化退化问题。包括去模糊、去雾、JPEG伪影去除、低光增强、去噪、雨滴去除、去雨、阴影去除、除雪和图像修复等等问题。原创 2024-11-04 08:00:00 · 897 阅读 · 0 评论 -
《Qwen2-VL》论文精读【下】:发表于2024年10月 Qwen2-VL 迅速崛起 | 性能与GPT-4o和Claude3.5相当
本文属于第二篇的Qwen2-VL介绍,详细介绍了Qwen2-VL的方法部分,包括训练阶段、训练数据格式、训练硬件资源、改进创新点等内容。原创 2024-11-03 06:33:00 · 1518 阅读 · 0 评论 -
《Qwen2-VL》论文精读【上】:发表于2024年10月 Qwen2-VL 迅速崛起 | 性能与GPT-4o和Claude3.5相当
Qwen2-VL-72B模型在各种多模态基准测试中,与GPT-4o和Claude3.5-Sonnet等领先模型相比,实现了相当的结果,超越了其他通用模型。这篇是论文的上集,下集会补充详细的技术实现原理原创 2024-11-02 22:23:03 · 2784 阅读 · 0 评论 -
《Baichuan-Omni》论文精读:第1个7B全模态模型 | 能够同时处理文本、图像、视频和音频输入
Baichuan-Omni是一个7B开源高性能的全模态模型,在文本语言、图像理解、视频理解、音频理解上都表现出非常有竞争力的能力原创 2024-11-02 05:49:52 · 1376 阅读 · 0 评论 -
《Mini-internVL》论文阅读:OpenGVLab+清华/南大等开源Mini-InternVL | 1~4B参数,仅用5%参数实现90%性能
OpenGVLab+清华/南大等开源Mini-InternVL | 1~4B参数,仅用5%参数实现90%性能原创 2024-10-31 20:31:29 · 1454 阅读 · 2 评论 -
【综述整理】2015年至2022年图像美学质量评估数据集【附下载链接】
文章介绍了2015年至2022年以来著名的图像美学评估、图像质量评估的数据集原创 2024-10-26 14:21:41 · 2310 阅读 · 0 评论 -
《PP-OCRv1》论文精读:PaddleOCR是目前SOTA级别的OCR开源技术(截止2024年10月)
论文作者使用了非常多的手段优化了OCR的性能,并做了很多消融实验进行证明原创 2024-10-20 11:03:28 · 2385 阅读 · 0 评论 -
《YOLO4》论文精读:YOLOv4给研究人员做了一次非常不错的技术汇总!
YOLOv4组合了诸家之所长,让YOLO系列更上一层楼原创 2024-10-18 14:20:00 · 1211 阅读 · 0 评论 -
《YOLO3》论文精读:3项优化和Darknet-53让YOLO3奠定了YOLO系列的基石
3项优化措施和Darknet-53让YOLO3奠定了YOLO系列的基石,正式开启了后续的YOLO辉煌故事原创 2024-10-16 16:34:51 · 1158 阅读 · 0 评论 -
《EAT》论文精度:新的图像美学质量评估SOTA的论文(截止2024年10月)
论文提出了新的网络结构让图像美学质量评估实现了新SOTA原创 2024-10-16 10:20:27 · 1556 阅读 · 0 评论 -
《YOLO2》论文精读:7项措施和联合训练让YOLO1更好、更快、更强大
YOLO2探讨了让YOLO1性能更加出众的多种技术和方法,但是没有做出革命性的变革原创 2024-10-14 20:19:40 · 751 阅读 · 0 评论 -
《YOLO1》论文精读:第一次实现端到端的目标检测
介绍了最经典的YOLO1核心思想,网络结构和损失函数,对后面YOLO系列文章做好铺垫和基础原创 2024-10-13 11:59:45 · 1353 阅读 · 0 评论 -
《ASL》论文精读:用ASL损失改善多标签分类的样本不平衡
ASL是一种优秀的多标签分类的损失函数原创 2024-10-12 10:14:10 · 1079 阅读 · 0 评论 -
《Query2Label》论文精读:一种简单而有效的方法来解决多标签分类问题
论文首次将Transformer decoder作为分类头,实现了一种简单高效的多标签分类方法原创 2024-10-11 20:25:27 · 1160 阅读 · 0 评论