自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 资源 (2)
  • 收藏
  • 关注

原创 开源视觉AI的翘楚,揭秘Qwen-VL,,“看、懂、想”三位一体的内核

今天是 2025 年 12 月 22 日,周一。眼瞅着双旦将至,快过年了,咱们解读论文的节奏也得提提速!想象一下,有一位博览群书、才华横溢的思想家,但他的一生都只在纯文字的世界里度过,从未见过真实世界的色彩与形态。这就像是传统的大语言模型(LLM),它们在文本理解和生成上能力超群,却是一个“失明”的天才。现在,让我们给这位思想家安上一双锐利的眼睛,让他不仅能阅读万卷书,还能看见万物,理解图像中的信息。这就是 Qwen-VL 带来的革命性一步

2025-12-23 00:44:10 415

原创 一天训练即SOTA!LLaVA-1.5:多模态AI的“性价比之王”全解析

导语:今天是 2025年12月21日,周日。眼瞅着2025年的“余额”只剩最后一些日子,马上就要过年了!大家是不是都在忙着赶年前的最后并在 KPI,或者已经开始憧憬即将到来的春节假期了?摘要:它是如何用极少的数据、极简单的架构,打败复杂的庞然大物的?本文带你深入解构 LLaVA-1.5 的“视觉-语言”魔法。

2025-12-21 01:41:32 581

原创 LLaVA 深度拆解:5个“反常识”设计,揭秘多模态 AI 的极致“连接学”

大家好,今天是2025年12月17日,周三,还有不到2个月就过年了,我们加加速。所以今天咱们不追热点,沉下心来,回过头去扒一扒 LLaVA。你会发现,现在的很多“黑科技”,其实都是它当年玩剩下的“反常识”套路。把这个基石踩稳了,后面不管出什么新模型,你都能一眼看透本质。

2025-12-18 00:19:49 732

原创 谷歌SigLIP:当“极简”击败“更大”,AI军备竞赛的拐点到了?

今天讲的是 训练策略(重点是损失函数),跟模型架构没有关系导读:在AI领域,“大力出奇迹”似乎是永恒的真理。更大的模型、更大的显存、更大的Batch Size...但在谷歌最新的SigLIP论文中,研究人员用一个简单的数学变换证明:有时候,做得更少,反而能做得更好。 本文将带你深入底层,看Sigmoid如何四两拨千斤,取代Softmax重塑多模态训练。

2025-12-17 01:12:24 714

原创 BLIP-2 深度解析:大模型时代的“四两拨千斤”之术

BLIP-2创新性地采用"冻结预训练模型+轻量级中间层"架构,仅需训练1.88亿参数的Q-Former模块就能高效连接视觉和语言模型。相比传统端到端训练方式,这种设计使参数量减少50倍的同时,在VQA等任务上性能提升8.7%,仅需9天即可完成训练。Q-Former通过三阶段训练实现图文对齐:图文对比学习(ITC)、图文匹配(ITM)和基于图像的文本生成(ITG)。虽然继承了LLM的幻觉等缺陷,但BLIP-2证明了模块化设计能以更低成本实现更优性能,为资源有限的研究者提供了新思路。

2025-12-16 00:09:46 851

原创 深度对决:多模态AI的「奠基者」CLIP vs 「全能王」BLIP,谁才是你的最优解?

导读: 各位朋友,昨天没有来得及更新,在精读论文中,今天才发出来,嘻嘻,见谅哦!!! 温馨提示:文末有我们最喜欢的两个:经典环节1--人话总结,经典环节2--测验环节;引言:在多模态AI的江湖里,CLIP 是那个打破天花板的“开山鼻祖”,它让计算机第一次真正“看懂”了图片和文字的关联。但技术的车轮滚滚向前,BLIP 横空出世,带着“理解+生成”的双重必杀技,宣称要重新定义行业标准。从“双塔”到“混合架构”,从“暴力美学”到“智能提纯”,这场技术进化的背后,究竟隐藏着怎样的底层逻辑?

2025-12-14 22:46:26 531

原创 当AI学会“看图说话”,从 CLIP 到 LLaVA/Qwen:揭秘多模态大模型(MLLM)的“视觉基石”

当AI学会“看图说话”,从 CLIP 到 LLaVA/Qwen:揭秘多模态大模型(MLLM)的“视觉基石”;温馨提示:文末有我们最喜欢的两个:经典环节1--人话总结,经典环节2--测验环节;可快速了解本篇论文CLIP。

2025-12-14 22:39:12 845

原创 彻底重塑AI的“祖师爷”:读懂《Attention Is All You Need》的五大革命性思想

从ChatGPT到DeepL,现代AI的基石都源于2017年的一篇论文。它不仅提出了Transformer,更用一种极其优雅的方式,颠覆了我们对序列建模的全部认知。

2025-12-13 01:21:48 905

原创 深度学习的分水岭:解密 ResNet 的 4 个颠覆性认知

当“更深”不再意味着“更好”,深度学习曾面临巨大的危机。本文将带你重读 AI 史上的巅峰之作 ResNet,用 4 个核心认知,看懂它是如何用最简单的“减法”打破瓶颈,并奠定现代大模型基石的。

2025-12-13 01:17:52 537

原创 传音控股招聘内推机会来啦![特殊字符]

传音控股开启内推通道!输入内推码IZ3MR8快速了解招聘流程,提升竞争力。机会难得,私聊咨询详情,助你斩获心动offer!内推成功,下一个职场赢家就是你!#内推机会 #传音控股 #招聘季

2025-09-02 14:26:16 128

原创 win10从旧的固态硬盘迁移系统到新的固态硬盘,开机黑屏LOGO处转圈,并启动不了,已解决,特写此贴,供急需解决该问题的有缘人参考!

win10从旧的固态硬盘迁移系统到新的固态硬盘,开机黑屏LOGO处转圈,并启动不了,已解决,特写此贴,供有缘人参考

2022-12-13 17:06:53 18360 9

原创 基于2D人脸识别技术(基于python)的自动考勤签到计时系统

基于2D人脸识别技术(基于python)的自动考勤签到计时系统:基于2D人脸识别技术(基于python)的自动考勤签到和计时功能,通过摄像头即时拍摄多张图片捕捉人脸信息,利用编程算法实现与事先采集的样本人脸图片进行精确比对,从而识别人物身份信息,实现智慧校园的课堂自动考勤签到和计时功能。欢迎私聊。Xian鱼搜索用户“春熙路赶路的青果”,可以看到录制的运行视频效果,

2022-12-11 20:26:07 442

原创 第一次学习使用Pyqt5心得和体会(UI可以生成py文件,UI和业务逻辑最好分开,即UI生成py后,再写一个main.py来放置业务逻辑)

学习使用pyqt5,而且pycharm还可以设置外部tool

2022-11-12 20:15:22 1311 2

原创 1.Leetcode第一题,两数之和,返回这两个索引

Leetcode第一题,两数之和,返回索引

2022-11-08 10:34:15 225

原创 Python学习之 a == b 和 a is b 的区别

== 和 is 的区别

2022-10-24 15:37:44 1704

原创 热力图可视化,重点权重heatmap

没写完

2022-10-05 10:46:47 806

原创 注意力机制中生成的类似热力图或者柱状图是如何生成的?计算出attention map后,如何将其可视化?

可视化特征图

2022-10-05 10:42:32 1700 1

原创 python进行图像处理中分别用到过matplotlib.pyplot、PIL、cv2三种库,这三种库图像读取和保存方法

python进行图像处理中分别用到过matplotlib.pyplot、PIL、cv2三种库,这三种库图像读取和保存方法

2022-03-01 10:32:29 2866

原创 python脚本划分训练集、验证集、测试集

import osimport shutilimport random# 保证随机可复现random.seed(0)def mk_dir(file_path): if os.path.exists(file_path): # 如果文件夹存在,则先删除原文件夹在重新创建 shutil.rmtree(file_path) os.makedirs(file_path)def split_data(file_path,new_file_path,t.

2021-11-06 18:48:23 1079

原创 安装好mmdetectionV2.11后,测试demo不出现图片

from mmdet.apis import init_detector, inference_detectorconfig_file = 'configs/faster_rcnn/faster_rcnn_r50_fpn_1x_coco.py'# download the checkpoint from model zoo and put it in `checkpoints/`# url: http://download.openmmlab.com/mmdetection/v2.0/faster.

2021-08-13 15:00:29 2414 4

原创 watch和nvidia-smi命令实时查看GPU使用、显存占用情况

方法一:watch -n 0.5 nvidia-smiwatch -n 0.5 nvidia-smi:0.5代表每隔0.5秒刷新一次GPU使用情况,同理,每隔1秒刷新,则使用:watch -n 1 nvidia-smi方法二:nvidia-smi -l 1,每1秒刷新一次,不建议使用watch查看nvidia-smi,watch每个时间周期开启一个进程(PID),查看后关闭进程,会影响cuda操作,如cudaMalloc;建议使用nvidia-smi -l x或者nvidia-smi --loo

2021-08-13 14:31:54 15615

原创 如何把jupyter notebook切换到其他配置好的conda虚拟环境,即在启动的jupyter notebook中,切换并使用conda 创建的虚拟环境

在深度学习实验过程中,肯定会涉及到不同的环境配置,比如说python3和python2的不同环境,比如不同版本的tensorflow的环境,这都要求切换环境,直接切换conda环境的方法很简单,直接在cmd上可以用conda activate adda来切换到adda的环境,也可以从conda的可视化界面上切换。但是自己尝试了下在jupyter notebook上的切换,在网上查到了很多方法,试下来都不行,自己折腾了很久终于搞定了,下面把一些细节记录下来。最主要的目标可以总结为,为jupyter n

2021-08-13 14:22:09 297

原创 飞浆领航团AI达人创造营第01课|让人拍案叫绝的创意都是如何诞生的?

时间:2021年7月27日 下午18:25内容:创意的获取渠道和创意的评估方法昨晚看了飞桨领航团AI达人创造营的第一节直播,现在将第一节的笔记以及感受整理如下,依次来激励自己的后续学习,希望能过坚持下去!!! 如下是b站回放视频:https://www.bilibili.com/video/BV1qq4y1X7uZ飞桨领航团AI达人创造营的第一课就是讲如何想出一个好的创意。每一位老师对如何想出一个好的创意都有自己不同的看法。各位老师分别从娱乐...

2021-07-27 18:41:49 405 1

linux操作命令.docx

linux操作命令,简单好用

2021-08-13

深度学习pytorch本机win10安装.docx

深度学习pytorch本机win10安装,安装教程一步一步走亲测简单好用!!!

2021-08-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除