心眸AI笔记-优快云博客

原创开源视觉AI的翘楚，揭秘Qwen-VL，，“看、懂、想”三位一体的内核

今天是 2025 年 12 月 22 日，周一。眼瞅着双旦将至，快过年了，咱们解读论文的节奏也得提提速！想象一下，有一位博览群书、才华横溢的思想家，但他的一生都只在纯文字的世界里度过，从未见过真实世界的色彩与形态。这就像是传统的大语言模型（LLM），它们在文本理解和生成上能力超群，却是一个“失明”的天才。现在，让我们给这位思想家安上一双锐利的眼睛，让他不仅能阅读万卷书，还能看见万物，理解图像中的信息。这就是 Qwen-VL 带来的革命性一步

2025-12-23 00:44:10 415

原创一天训练即SOTA！LLaVA-1.5：多模态AI的“性价比之王”全解析

导语：今天是 2025年12月21日，周日。眼瞅着2025年的“余额”只剩最后一些日子，马上就要过年了！大家是不是都在忙着赶年前的最后并在 KPI，或者已经开始憧憬即将到来的春节假期了？摘要：它是如何用极少的数据、极简单的架构，打败复杂的庞然大物的？本文带你深入解构 LLaVA-1.5 的“视觉-语言”魔法。

2025-12-21 01:41:32 581

原创 LLaVA 深度拆解：5个“反常识”设计，揭秘多模态 AI 的极致“连接学”

大家好，今天是2025年12月17日，周三，还有不到2个月就过年了，我们加加速。所以今天咱们不追热点，沉下心来，回过头去扒一扒 LLaVA。你会发现，现在的很多“黑科技”，其实都是它当年玩剩下的“反常识”套路。把这个基石踩稳了，后面不管出什么新模型，你都能一眼看透本质。

2025-12-18 00:19:49 732

原创谷歌SigLIP：当“极简”击败“更大”，AI军备竞赛的拐点到了？

今天讲的是训练策略（重点是损失函数），跟模型架构没有关系导读：在AI领域，“大力出奇迹”似乎是永恒的真理。更大的模型、更大的显存、更大的Batch Size...但在谷歌最新的SigLIP论文中，研究人员用一个简单的数学变换证明：有时候，做得更少，反而能做得更好。本文将带你深入底层，看Sigmoid如何四两拨千斤，取代Softmax重塑多模态训练。

2025-12-17 01:12:24 714

原创 BLIP-2 深度解析：大模型时代的“四两拨千斤”之术

BLIP-2创新性地采用"冻结预训练模型+轻量级中间层"架构，仅需训练1.88亿参数的Q-Former模块就能高效连接视觉和语言模型。相比传统端到端训练方式，这种设计使参数量减少50倍的同时，在VQA等任务上性能提升8.7%，仅需9天即可完成训练。Q-Former通过三阶段训练实现图文对齐：图文对比学习(ITC)、图文匹配(ITM)和基于图像的文本生成(ITG)。虽然继承了LLM的幻觉等缺陷，但BLIP-2证明了模块化设计能以更低成本实现更优性能，为资源有限的研究者提供了新思路。

2025-12-16 00:09:46 851

原创深度对决：多模态AI的「奠基者」CLIP vs 「全能王」BLIP，谁才是你的最优解？

导读：各位朋友，昨天没有来得及更新，在精读论文中，今天才发出来，嘻嘻，见谅哦！！！温馨提示：文末有我们最喜欢的两个：经典环节1--人话总结，经典环节2--测验环节；引言：在多模态AI的江湖里，CLIP 是那个打破天花板的“开山鼻祖”，它让计算机第一次真正“看懂”了图片和文字的关联。但技术的车轮滚滚向前，BLIP 横空出世，带着“理解+生成”的双重必杀技，宣称要重新定义行业标准。从“双塔”到“混合架构”，从“暴力美学”到“智能提纯”，这场技术进化的背后，究竟隐藏着怎样的底层逻辑？

2025-12-14 22:46:26 531

原创当AI学会“看图说话”，从 CLIP 到 LLaVA/Qwen：揭秘多模态大模型（MLLM）的“视觉基石”

当AI学会“看图说话”，从 CLIP 到 LLaVA/Qwen：揭秘多模态大模型（MLLM）的“视觉基石”；温馨提示：文末有我们最喜欢的两个：经典环节1--人话总结，经典环节2--测验环节；可快速了解本篇论文CLIP。

2025-12-14 22:39:12 845

原创彻底重塑AI的“祖师爷”：读懂《Attention Is All You Need》的五大革命性思想

从ChatGPT到DeepL，现代AI的基石都源于2017年的一篇论文。它不仅提出了Transformer，更用一种极其优雅的方式，颠覆了我们对序列建模的全部认知。

2025-12-13 01:21:48 905

原创深度学习的分水岭：解密 ResNet 的 4 个颠覆性认知

当“更深”不再意味着“更好”，深度学习曾面临巨大的危机。本文将带你重读 AI 史上的巅峰之作 ResNet，用 4 个核心认知，看懂它是如何用最简单的“减法”打破瓶颈，并奠定现代大模型基石的。

2025-12-13 01:17:52 537

原创传音控股招聘内推机会来啦！[特殊字符]

传音控股开启内推通道！输入内推码IZ3MR8快速了解招聘流程，提升竞争力。机会难得，私聊咨询详情，助你斩获心动offer！内推成功，下一个职场赢家就是你！#内推机会 #传音控股 #招聘季

2025-09-02 14:26:16 128

原创 win10从旧的固态硬盘迁移系统到新的固态硬盘，开机黑屏LOGO处转圈，并启动不了，已解决，特写此贴，供急需解决该问题的有缘人参考！

win10从旧的固态硬盘迁移系统到新的固态硬盘，开机黑屏LOGO处转圈，并启动不了，已解决，特写此贴，供有缘人参考

2022-12-13 17:06:53 18360 9

原创基于2D人脸识别技术（基于python）的自动考勤签到计时系统

基于2D人脸识别技术（基于python）的自动考勤签到计时系统：基于2D人脸识别技术（基于python）的自动考勤签到和计时功能，通过摄像头即时拍摄多张图片捕捉人脸信息，利用编程算法实现与事先采集的样本人脸图片进行精确比对，从而识别人物身份信息，实现智慧校园的课堂自动考勤签到和计时功能。欢迎私聊。Xian鱼搜索用户“春熙路赶路的青果”，可以看到录制的运行视频效果，

2022-12-11 20:26:07 442

原创第一次学习使用Pyqt5心得和体会（UI可以生成py文件，UI和业务逻辑最好分开，即UI生成py后，再写一个main.py来放置业务逻辑）

学习使用pyqt5，而且pycharm还可以设置外部tool

2022-11-12 20:15:22 1311 2

原创 1.Leetcode第一题，两数之和，返回这两个索引

Leetcode第一题，两数之和，返回索引

2022-11-08 10:34:15 225

原创 Python学习之 a == b 和 a is b 的区别

== 和 is 的区别

2022-10-24 15:37:44 1704

原创热力图可视化，重点权重heatmap

没写完

2022-10-05 10:46:47 806

原创注意力机制中生成的类似热力图或者柱状图是如何生成的？计算出attention map后，如何将其可视化？

可视化特征图

2022-10-05 10:42:32 1700 1

原创 python进行图像处理中分别用到过matplotlib.pyplot、PIL、cv2三种库，这三种库图像读取和保存方法

python进行图像处理中分别用到过matplotlib.pyplot、PIL、cv2三种库，这三种库图像读取和保存方法

2022-03-01 10:32:29 2866

原创 python脚本划分训练集、验证集、测试集

import osimport shutilimport random# 保证随机可复现random.seed(0)def mk_dir(file_path): if os.path.exists(file_path): # 如果文件夹存在，则先删除原文件夹在重新创建 shutil.rmtree(file_path) os.makedirs(file_path)def split_data(file_path,new_file_path,t.

2021-11-06 18:48:23 1079

原创安装好mmdetectionV2.11后，测试demo不出现图片

from mmdet.apis import init_detector, inference_detectorconfig_file = 'configs/faster_rcnn/faster_rcnn_r50_fpn_1x_coco.py'# download the checkpoint from model zoo and put it in `checkpoints/`# url: http://download.openmmlab.com/mmdetection/v2.0/faster.

2021-08-13 15:00:29 2414 4

原创 watch和nvidia-smi命令实时查看GPU使用、显存占用情况

方法一：watch -n 0.5 nvidia-smiwatch -n 0.5 nvidia-smi：0.5代表每隔0.5秒刷新一次GPU使用情况，同理，每隔1秒刷新，则使用：watch -n 1 nvidia-smi方法二：nvidia-smi -l 1，每1秒刷新一次，不建议使用watch查看nvidia-smi，watch每个时间周期开启一个进程(PID)，查看后关闭进程，会影响cuda操作，如cudaMalloc；建议使用nvidia-smi -l x或者nvidia-smi --loo

2021-08-13 14:31:54 15615

原创如何把jupyter notebook切换到其他配置好的conda虚拟环境，即在启动的jupyter notebook中，切换并使用conda 创建的虚拟环境

在深度学习实验过程中，肯定会涉及到不同的环境配置，比如说python3和python2的不同环境，比如不同版本的tensorflow的环境，这都要求切换环境，直接切换conda环境的方法很简单，直接在cmd上可以用conda activate adda来切换到adda的环境，也可以从conda的可视化界面上切换。但是自己尝试了下在jupyter notebook上的切换，在网上查到了很多方法，试下来都不行，自己折腾了很久终于搞定了，下面把一些细节记录下来。最主要的目标可以总结为，为jupyter n

2021-08-13 14:22:09 297

原创飞浆领航团AI达人创造营第01课|让人拍案叫绝的创意都是如何诞生的？

时间：2021年7月27日下午18：25内容：创意的获取渠道和创意的评估方法昨晚看了飞桨领航团AI达人创造营的第一节直播，现在将第一节的笔记以及感受整理如下，依次来激励自己的后续学习，希望能过坚持下去！！！如下是b站回放视频：https://www.bilibili.com/video/BV1qq4y1X7uZ飞桨领航团AI达人创造营的第一课就是讲如何想出一个好的创意。每一位老师对如何想出一个好的创意都有自己不同的看法。各位老师分别从娱乐...

2021-07-27 18:41:49 405 1

qq_43776757的博客