- 博客(23)
- 资源 (2)
- 收藏
- 关注
原创 开源视觉AI的翘楚,揭秘Qwen-VL,,“看、懂、想”三位一体的内核
今天是 2025 年 12 月 22 日,周一。眼瞅着双旦将至,快过年了,咱们解读论文的节奏也得提提速!想象一下,有一位博览群书、才华横溢的思想家,但他的一生都只在纯文字的世界里度过,从未见过真实世界的色彩与形态。这就像是传统的大语言模型(LLM),它们在文本理解和生成上能力超群,却是一个“失明”的天才。现在,让我们给这位思想家安上一双锐利的眼睛,让他不仅能阅读万卷书,还能看见万物,理解图像中的信息。这就是 Qwen-VL 带来的革命性一步
2025-12-23 00:44:10
415
原创 一天训练即SOTA!LLaVA-1.5:多模态AI的“性价比之王”全解析
导语:今天是 2025年12月21日,周日。眼瞅着2025年的“余额”只剩最后一些日子,马上就要过年了!大家是不是都在忙着赶年前的最后并在 KPI,或者已经开始憧憬即将到来的春节假期了?摘要:它是如何用极少的数据、极简单的架构,打败复杂的庞然大物的?本文带你深入解构 LLaVA-1.5 的“视觉-语言”魔法。
2025-12-21 01:41:32
581
原创 LLaVA 深度拆解:5个“反常识”设计,揭秘多模态 AI 的极致“连接学”
大家好,今天是2025年12月17日,周三,还有不到2个月就过年了,我们加加速。所以今天咱们不追热点,沉下心来,回过头去扒一扒 LLaVA。你会发现,现在的很多“黑科技”,其实都是它当年玩剩下的“反常识”套路。把这个基石踩稳了,后面不管出什么新模型,你都能一眼看透本质。
2025-12-18 00:19:49
732
原创 谷歌SigLIP:当“极简”击败“更大”,AI军备竞赛的拐点到了?
今天讲的是 训练策略(重点是损失函数),跟模型架构没有关系导读:在AI领域,“大力出奇迹”似乎是永恒的真理。更大的模型、更大的显存、更大的Batch Size...但在谷歌最新的SigLIP论文中,研究人员用一个简单的数学变换证明:有时候,做得更少,反而能做得更好。 本文将带你深入底层,看Sigmoid如何四两拨千斤,取代Softmax重塑多模态训练。
2025-12-17 01:12:24
714
原创 BLIP-2 深度解析:大模型时代的“四两拨千斤”之术
BLIP-2创新性地采用"冻结预训练模型+轻量级中间层"架构,仅需训练1.88亿参数的Q-Former模块就能高效连接视觉和语言模型。相比传统端到端训练方式,这种设计使参数量减少50倍的同时,在VQA等任务上性能提升8.7%,仅需9天即可完成训练。Q-Former通过三阶段训练实现图文对齐:图文对比学习(ITC)、图文匹配(ITM)和基于图像的文本生成(ITG)。虽然继承了LLM的幻觉等缺陷,但BLIP-2证明了模块化设计能以更低成本实现更优性能,为资源有限的研究者提供了新思路。
2025-12-16 00:09:46
851
原创 深度对决:多模态AI的「奠基者」CLIP vs 「全能王」BLIP,谁才是你的最优解?
导读: 各位朋友,昨天没有来得及更新,在精读论文中,今天才发出来,嘻嘻,见谅哦!!! 温馨提示:文末有我们最喜欢的两个:经典环节1--人话总结,经典环节2--测验环节;引言:在多模态AI的江湖里,CLIP 是那个打破天花板的“开山鼻祖”,它让计算机第一次真正“看懂”了图片和文字的关联。但技术的车轮滚滚向前,BLIP 横空出世,带着“理解+生成”的双重必杀技,宣称要重新定义行业标准。从“双塔”到“混合架构”,从“暴力美学”到“智能提纯”,这场技术进化的背后,究竟隐藏着怎样的底层逻辑?
2025-12-14 22:46:26
531
原创 当AI学会“看图说话”,从 CLIP 到 LLaVA/Qwen:揭秘多模态大模型(MLLM)的“视觉基石”
当AI学会“看图说话”,从 CLIP 到 LLaVA/Qwen:揭秘多模态大模型(MLLM)的“视觉基石”;温馨提示:文末有我们最喜欢的两个:经典环节1--人话总结,经典环节2--测验环节;可快速了解本篇论文CLIP。
2025-12-14 22:39:12
845
原创 彻底重塑AI的“祖师爷”:读懂《Attention Is All You Need》的五大革命性思想
从ChatGPT到DeepL,现代AI的基石都源于2017年的一篇论文。它不仅提出了Transformer,更用一种极其优雅的方式,颠覆了我们对序列建模的全部认知。
2025-12-13 01:21:48
905
原创 深度学习的分水岭:解密 ResNet 的 4 个颠覆性认知
当“更深”不再意味着“更好”,深度学习曾面临巨大的危机。本文将带你重读 AI 史上的巅峰之作 ResNet,用 4 个核心认知,看懂它是如何用最简单的“减法”打破瓶颈,并奠定现代大模型基石的。
2025-12-13 01:17:52
537
原创 传音控股招聘内推机会来啦![特殊字符]
传音控股开启内推通道!输入内推码IZ3MR8快速了解招聘流程,提升竞争力。机会难得,私聊咨询详情,助你斩获心动offer!内推成功,下一个职场赢家就是你!#内推机会 #传音控股 #招聘季
2025-09-02 14:26:16
128
原创 win10从旧的固态硬盘迁移系统到新的固态硬盘,开机黑屏LOGO处转圈,并启动不了,已解决,特写此贴,供急需解决该问题的有缘人参考!
win10从旧的固态硬盘迁移系统到新的固态硬盘,开机黑屏LOGO处转圈,并启动不了,已解决,特写此贴,供有缘人参考
2022-12-13 17:06:53
18360
9
原创 基于2D人脸识别技术(基于python)的自动考勤签到计时系统
基于2D人脸识别技术(基于python)的自动考勤签到计时系统:基于2D人脸识别技术(基于python)的自动考勤签到和计时功能,通过摄像头即时拍摄多张图片捕捉人脸信息,利用编程算法实现与事先采集的样本人脸图片进行精确比对,从而识别人物身份信息,实现智慧校园的课堂自动考勤签到和计时功能。欢迎私聊。Xian鱼搜索用户“春熙路赶路的青果”,可以看到录制的运行视频效果,
2022-12-11 20:26:07
442
原创 第一次学习使用Pyqt5心得和体会(UI可以生成py文件,UI和业务逻辑最好分开,即UI生成py后,再写一个main.py来放置业务逻辑)
学习使用pyqt5,而且pycharm还可以设置外部tool
2022-11-12 20:15:22
1311
2
原创 python进行图像处理中分别用到过matplotlib.pyplot、PIL、cv2三种库,这三种库图像读取和保存方法
python进行图像处理中分别用到过matplotlib.pyplot、PIL、cv2三种库,这三种库图像读取和保存方法
2022-03-01 10:32:29
2866
原创 python脚本划分训练集、验证集、测试集
import osimport shutilimport random# 保证随机可复现random.seed(0)def mk_dir(file_path): if os.path.exists(file_path): # 如果文件夹存在,则先删除原文件夹在重新创建 shutil.rmtree(file_path) os.makedirs(file_path)def split_data(file_path,new_file_path,t.
2021-11-06 18:48:23
1079
原创 安装好mmdetectionV2.11后,测试demo不出现图片
from mmdet.apis import init_detector, inference_detectorconfig_file = 'configs/faster_rcnn/faster_rcnn_r50_fpn_1x_coco.py'# download the checkpoint from model zoo and put it in `checkpoints/`# url: http://download.openmmlab.com/mmdetection/v2.0/faster.
2021-08-13 15:00:29
2414
4
原创 watch和nvidia-smi命令实时查看GPU使用、显存占用情况
方法一:watch -n 0.5 nvidia-smiwatch -n 0.5 nvidia-smi:0.5代表每隔0.5秒刷新一次GPU使用情况,同理,每隔1秒刷新,则使用:watch -n 1 nvidia-smi方法二:nvidia-smi -l 1,每1秒刷新一次,不建议使用watch查看nvidia-smi,watch每个时间周期开启一个进程(PID),查看后关闭进程,会影响cuda操作,如cudaMalloc;建议使用nvidia-smi -l x或者nvidia-smi --loo
2021-08-13 14:31:54
15615
原创 如何把jupyter notebook切换到其他配置好的conda虚拟环境,即在启动的jupyter notebook中,切换并使用conda 创建的虚拟环境
在深度学习实验过程中,肯定会涉及到不同的环境配置,比如说python3和python2的不同环境,比如不同版本的tensorflow的环境,这都要求切换环境,直接切换conda环境的方法很简单,直接在cmd上可以用conda activate adda来切换到adda的环境,也可以从conda的可视化界面上切换。但是自己尝试了下在jupyter notebook上的切换,在网上查到了很多方法,试下来都不行,自己折腾了很久终于搞定了,下面把一些细节记录下来。最主要的目标可以总结为,为jupyter n
2021-08-13 14:22:09
297
原创 飞浆领航团AI达人创造营第01课|让人拍案叫绝的创意都是如何诞生的?
时间:2021年7月27日 下午18:25内容:创意的获取渠道和创意的评估方法昨晚看了飞桨领航团AI达人创造营的第一节直播,现在将第一节的笔记以及感受整理如下,依次来激励自己的后续学习,希望能过坚持下去!!! 如下是b站回放视频:https://www.bilibili.com/video/BV1qq4y1X7uZ飞桨领航团AI达人创造营的第一课就是讲如何想出一个好的创意。每一位老师对如何想出一个好的创意都有自己不同的看法。各位老师分别从娱乐...
2021-07-27 18:41:49
405
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅