
大模型
文章平均质量分 77
CV-deeplearning
曾任小米AI Lab图像算法工程师, 现任国内知名公司算法专家, 微信公众号:AIWorkshopLab。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MonkeyOCR从理论到实践——保姆级教程
MonkeyOCR:本文提出“结构-识别-关系”(SRR)三元组范式,实现了高效且精准的文档解析。其3B参数模型在英文文档解析任务中超越了Gemini 2.5 Pro和Qwen2.5-VL-72B。在对多页文档解析场景下,处理速度达每秒0.84页,显著优于MinerU(0.65页/秒)和Qwen2.5-VL-7B(0.12页/秒)。原创 2025-06-12 14:25:25 · 1147 阅读 · 1 评论 -
Dolphin文档解析从理论到实践——保姆级教程
2025年5月,字节开源了文档解析Dolphin,让文档解析效率提升83%。本文将深入解析字节跳动最新开源的Dolphin模型,先看理论在实战体验。现实世界中约80%的有价值信息都被"囚禁"在非结构化文档中——PDF学术论文、企业报告、技术文档、医疗记录。这些"沉睡的数据资产"如同被锁在保险柜中的黄金,等待着被解放的钥匙。原创 2025-05-28 19:21:42 · 971 阅读 · 0 评论 -
WildDoc:拍照场景下的文档理解——数据真香
在文档理解领域,多模态大模型(MLLMs)正以惊人的速度进化。从基础文档图像识别到复杂文档理解,它们在扫描或数字文档基准测试(如 DocVQA、ChartQA)中表现出色,这似乎表明MLLMs已很好地解决了文档理解问题。但是在拍照场景下表现较差,该博客可以获得大量拍照场景下的文档数据。原创 2025-05-28 18:59:18 · 405 阅读 · 0 评论 -
StepX-Edit:一个通用图像编辑框架——论文阅读笔记
近年来,图像编辑技术发展迅速,GPT- 4o、Gemini2 Flash等前沿多模态模型的推出,展现了图像编辑能力的巨大潜力。这些模型展示了令人印象深刻的适应能力,能够满足绝大多数用户驱动的编辑需求,标志着图像处理领域取得了重大进展。然而,开源算法与这些闭源模型之间仍存在较大差距。为此,我们介绍了一种最先进的图像编辑模型——Step1X-Edit,旨在提供与GPT-4o和Gemini2 Flash等闭源模型相当的性能。原创 2025-05-21 17:22:48 · 1054 阅读 · 0 评论 -
深度研究框架:deer-flow本地部署最佳实践——保姆级教程
DeerFlow 是一个社区驱动的深度研究框架,旨在将语言模型与专业工具(如网络搜索、爬虫和 Python 代码执行)相结合,实现自动化研究和代码分析。其模块化多智能体系统架构基于 LangGraph,包含协调器、规划器、研究团队和报告员等组件,能够生成包含图像的综合报告,并支持播客音频生成。DeerFlow 的核心能力包括 LLM 集成、工具和 MCP 集成、人机协作以及内容创作。用户可以通过拉取代码、配置环境和使用 Web UI 来体验其功能。实践案例展示了如何利用 DeerFlow 生成武汉5月旅游攻原创 2025-05-20 09:46:59 · 1457 阅读 · 0 评论 -
视觉-语言大模型VLM实践——保姆级教程
本博客详细介绍:多模态大模型Qwen2.5-VL本地部署指南VLLM部署多模态大模型Swift实战(微调多模态模型Qwen2.5-VL-7B)强化学习从理论到实践(用强化学习微调Qwen2.5-VL模型)原创 2025-05-16 16:51:19 · 1093 阅读 · 0 评论 -
视觉-语言大模型VLM理论——保姆级教程
随着大语言模型(LLM)的快速发展,基于LLM的多模态模型在计算机视觉、语音、自动驾驶等领域取得了显著进展。本文以Qwen-VL系列模型为例,探讨了多模态大语言模型(MM-LLM)的通用框架及其在视觉-语言任务中的应用。原创 2025-05-16 15:38:46 · 768 阅读 · 0 评论 -
ControlNet可控生成从理论到实践——保姆级教程
ControlNet模型是让AI绘画领域无比繁荣的关键一环,它让AI绘画的生成过程更加的可控,更有助于广泛地将AI绘画应用到各行各业中,为AI绘画的商业落地奠定坚实的基础。原创 2025-05-15 16:45:19 · 976 阅读 · 0 评论 -
Stable Diffusion从理论到实践——保姆级教程
Stable Diffusion是一个基于Latent Diffusion Models(LDMs)实现的以文生图(text-to-image generation)模型,能够生成高分辨率图像。它的原理涉及Diffusion Model(DDPM)、Attention机制和Autoencoder技术。Stable Diffusion的原理在于在潜在空间进行扩散过程,而非直接在数据空间。本文提供了对Stable Diffusion模型原理和代码实现的详细解读。原创 2025-05-14 16:44:41 · 981 阅读 · 0 评论 -
强化学习+多模态 从理论到实战
强化学习 (RL) 是一种机器学习范式,其中智能体通过与环境交互来学习最优行为,以最大化累积奖励。与监督学习不同,强化学习不是从显式标签中学习,而是通过反馈(奖励)来指导学习过程。这种学习方式的核心在于通过试错来发现最佳策略,这与监督学习中直接将输入映射到输出有着本质的区别。策略优化是强化学习中的一类算法,其直接目标是找到智能体在环境中采取行动的最佳策略。策略代表了智能体在给定状态下选择行动的方式,它定义了从状态到行动的映射。原创 2025-05-06 16:19:13 · 1014 阅读 · 0 评论 -
vLLM部署多模态大模型
vLLM 是一个高效的推理和部署框架,专为大规模语言模型(LLM)优化。它采用 PagedAttention 技术,显著提高 GPU 显存利用率,支持高吞吐量推理。vLLM 兼容 Hugging Face Transformers 和 OpenAI API 接口,便于集成现有模型。其高效的 KV 缓存管理减少重复计算,适用于流式生成、批量处理和多用户推理场景。vLLM 还支持 FlashAttention,可进一步提升推理速度。原创 2025-03-19 18:42:42 · 1279 阅读 · 0 评论 -
Swift实战(微调多模态模型Qwen2.5 vl 7B)
本教程利用Swift框架微调Qwen2.5 vl 7B模型,是用的数据集是OCR识别数据集,一共10万张图片。原创 2025-03-18 10:59:48 · 2243 阅读 · 9 评论 -
多模态大模型Qwen2.5 vl本地部署指南
Qwen2.5-VL 是通义千问系列的最新多模态大模型,具备图文理解、视觉推理、文档解析等强大能力,广泛应用于智能搜索、内容生成、企业文档处理等领域。🔹 主要功能✅ 多模态问答:解析图片、图表、文档,回答问题,支持 OCR 识别。✅ 复杂文档解析:提取发票、合同、PPT、表格等文件中的结构化信息。✅ 高级视觉推理:理解图像中的关系,如因果推理、数据分析。✅ 智能摘要与生成:自动生成图片描述、文档摘要,提高信息获取效率。原创 2025-03-11 16:59:16 · 2632 阅读 · 0 评论 -
Cursor让编程变得像聊天一样简单
在编程的世界里,Cursor + 大模型 正在改变开发者的工作方式。Cursor 让代码编写像聊天一样轻松,自然语言即可生成高效、可读的代码,同时还能即时调试、优化。结合强大的 AI 大模型,你可以快速理解复杂逻辑、自动补全代码、生成测试用例,甚至优化性能,极大提升开发效率。无论是新手学习编程,还是资深工程师加速研发,Cursor 都能提供智能支持,减少重复劳动,让你专注于创新。如果你还没试过,赶快体验,让 AI 成为你的得力助手,让编程变得更高效、更有趣!原创 2025-03-11 15:31:19 · 593 阅读 · 0 评论 -
MiniGPT-4原理解读——大模型论文阅读笔记三
论文:https://arxiv.org/pdf/2304.10592v1.pdf代码:https://github.com/vision-cair/minigpt-4。原创 2023-06-20 09:43:13 · 1390 阅读 · 1 评论 -
DALL-E2原理解读——大模型论文阅读笔记五
论文:https://cdn.openai.com/papers/dall-e-2.pdf项目:https://openai.com/dall-e-2。原创 2023-06-20 10:14:51 · 2003 阅读 · 0 评论 -
Visual ChatGPT原理解读——大模型论文阅读笔记四
论文:https://arxiv.org/abs/2303.04671代码:https://github.com/microsoft/TaskMatrix。原创 2023-06-20 10:00:21 · 1980 阅读 · 1 评论 -
BLIP2原理解读——大模型论文阅读笔记二
端到端训练视觉语言模型需要大尺度模型及大规模数据,该过程成本大,本文提出方法基于现有高质量视觉模型及语言大模型进行联合训练,为减少计算量及防止遗忘,作者对预训练模型进行frozen,为了将两任务对齐,作者提出Querying Transformer (Q- Former) 预训练,如图1,其将有用视觉特征传递至LLM输出目标文本。代码:https://github.com/salesforce/LAVIS/tree/main/projects/blip2。原创 2023-06-20 09:33:29 · 7901 阅读 · 1 评论 -
CLIP原理解读——大模型论文阅读笔记一
模型的输入是图片和文字的配对,图片输入到图片的encoder得到一些特征,文本输入到文本的encoder得到一些特征,每个traning batch里有n个图片-文本对,就能得到n个图片的特征和n个文本的特征,然后在这些特征上做对比学习,对比学习非常灵活,就需要正样本和负样本的定义,其它都是正常套路(不懂对比学习),配对的图片-文本对就是正样本,描述的是同一个东西,特征矩阵里对角线上的都是正样本,矩阵中非对角线上的元素都是负样本,有了正负样本,模型就可以通过对比学习的方式去训练了,不需要任何手工标注。原创 2023-06-07 09:21:26 · 11957 阅读 · 4 评论