自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 收藏
  • 关注

原创 ffmpeg离线安装到服务器:解决conda/sudo/无法安装的通用方案

本文介绍了FFmpeg离线安装到服务器的通用解决方案。首先从官网下载适合平台的静态二进制文件(本案例使用amd64版本),然后上传到服务器并解压。接着将ffmpeg和ffprobe复制到用户bin目录,并设置PATH环境变量。最后通过ffmpeg -version命令验证安装是否成功。这种方法解决了conda/sudo无法安装FFmpeg的问题,适用于各种服务器环境。

2025-11-13 20:41:59 483

原创 【速读】一文快速了解RoPE旋转位置编码:从一维到多模态(三维):旋转位置编码 RoPE / 2D RoPE / MRoPE (附 9 个进阶例子 + 全量符号释义 + “外推稳”解读)

✨还不知道?旋转位置编码RoPE?一文速通RoPE✨本文介绍了旋转位置编码(RoPE)及其扩展形式2D RoPE和MRoPE,从一维序列到多模态时空数据。

2025-11-08 19:27:13 1517

原创 【项目】pyqt5基于python的照片整蛊项目

FacePrank 是一个功能强大的图像变形工具,使用Python和PyQt5开发。无需复杂的PS技能,只需鼠标点击拖拽,就能对照片进行各种有趣的变形处理。无论是恶搞朋友、制作表情包,还是进行创意设计,这个工具都能满足你的需求!FacePrank 是一个功能丰富、使用简单的照片整蛊工具。通过五大核心变形工具,你可以轻松制作各种搞笑照片。无论是恶搞朋友、制作表情包,还是进行创意设计,这个工具都能满足你的需求!核心优势✅ 纯Python实现,代码简洁易懂✅ 基于NumPy向量化运算,性能优秀。

2025-11-08 19:09:29 1188 3

原创 pycharm找不到Tencent Cloud CodeBuddy如何安装[windows]?pycharm插件市场找不到插件如何安装?

🔥PyCharm在Market Place找不到插件怎么办🔥?手动安装Tencent Cloud CodeBuddy插件指南 下载插件包:从JetBrains插件市场获取zip安装包(无需解压) 进入PyCharm设置:File→Settings→Plugins 选择

2025-10-01 15:01:16 749

原创 【从零手搓Transformer】:小白也能懂的超详细教程(含完整代码+公式+示例应用实现)

从零开始手搓Transformer的详细教程,包含完整代码+公式!

2025-09-29 13:34:58 1766 5

原创 PyTorch nn.Linear 终极详解:从零理解线性层的一切(含可视化+完整代码)

本文深入讲解了PyTorch中的nn.Linear线性层,从生物神经元到人工神经元的转化过程开始,详细解析了线性层的数学本质和实现原理。主要内容包括: 生物神经元到人工神经元的转换:通过简单示例展示了人工神经元如何模拟生物神经元的工作机制 线性层的数学本质: 单个样本的计算公式和实现细节 批量样本处理时的矩阵运算过程 多维张量的处理方法 可视化与代码实现: 提供完整的PlantUML可视化代码 包含详细的Python实现示例 展示权重矩阵和偏置向量的作用方式 文章采用循序渐进的方式,从基础概念到实际应用。

2025-09-29 13:34:17 1079

原创 【多模态前沿】2024 CVPR Video ReCap递归架构:小时级视频也能搞定!从秒到小时的层次字幕生成黑科技

看完这篇论文真的被惊艳到了!🔥 Video ReCap用递归架构解决了长视频字幕生成的世纪难题,从1秒到2小时的视频都能处理!核心创新是递归视频-语言模型,通过三层递归(片段→段落→摘要)逐层理解视频语义。配合课程学习策略,让模型像人类一样从简单到复杂逐步学习视频层次结构。最绝的是用LLM生成伪标签来解决数据稀缺问题!在EgoSchema上刷新SOTA,性能提升18.13%!这套方法不仅优雅而且实用,强烈推荐深度学习er们细品这个递归设计思路~ 🎯💡

2025-09-29 13:32:41 915

原创 【对抗攻击前沿】2025 IJCV - Dilated Attention 揭秘!让AI“看走眼”的对抗攻击别样思路:视觉模型安全新威胁-扩张注意力攻击完全解析

🔥当AI的"注意力"成为攻击突破口!本文精读IJCV 2025最新论文,深度解析Dialted扩张注意力攻击的原理与实现机制对抗攻击研究已从简单的像素扰动发展到精确操控模型注意力机制。通过系统分析视觉模型在处理对抗样本时的注意力变化规律,研究者发现了提升跨模型攻击可转移性的关键因素。本文详细介绍DA(扩张注意力)攻击的核心技术:注意力最大化损失函数通过多层特征操控模型关注区域,动态线性增强技术生成多样化攻击模式突破传统防御。实验验证显示该方法在ImageNet数据集上攻击成功率提升8%以上。

2025-09-28 13:46:40 1126

原创 【多模态前沿】2024 EMNLP VIEWS让AI秒变新闻主播: Entity-Aware News Video Captioning论文解读Notes

还在为视频配字幕发愁?来看这篇EMNLP 2024的VIEWS论文🔥!它能让AI自动识别新闻视频中的人物、地点,生成包含"布什总统访问利比里亚"这样的专业字幕,而不是"一个男人见另一个女人"😅。核心就是三步走:先用视觉模型抓实体,再用大模型查背景,最后融合生成。实测比传统方法提升30%性能!想让你的视频字幕更专业?这个方法必须学!💪

2025-09-28 13:45:13 1033

原创 【多模态必读】VideoCLIP:视频-文本对比学习&& RAT 检索增强训练 && 时间重叠策略

🔥 VideoCLIP论文深度解读:让视频真正"看懂"文字! 🔥花了整整一天啃完这篇2021 EMNLP的神作!VideoCLIP巧妙解决了视频和文本配对的老大难问题 🎯核心亮点我总结成三板斧:1️⃣ 时间重叠策略:抛弃死板的精确对齐,让视频片段和文本"模糊匹配",就像人说话和做动作本来就不同步2️⃣ 检索增强训练:不再随机找负样本,而是专门找"长得像但不是"的困难样本来训练,让模型练就火眼金睛3️⃣ 双向对比学习:视频找文本+文本找视频

2025-09-28 13:44:35 971

原创 【多模态必读】VideoCaption:看视频说话!-CLIP4Caption论文精读:双模态预训练+Transformer微调,附公式详解

🔥 模型!看!视频!说话!本文深入解析CLIP4Caption论文,揭秘如何用CLIP增强的视频-文本匹配网络实现视频字幕生成!🚀 通过两阶段训练策略,先用对比学习预训练获得强文本相关视频特征,再微调Transformer生成字幕。集成策略超有意思,让多个模型互相评价选出最佳字幕。实战效果爆表!📈 包含详细公式推导、特征维度标注和关键技巧总结,适合深度学习爱好者收藏学习~

2025-09-27 14:16:09 954

原创 【多模态必读】UniVL视觉-语言:一个模型搞定视频检索+字幕生成,5个损失函数的妙用【附公式详解】

🎯 还在为视频理解和生成任务训练两个模型发愁?UniVL用一个统一框架搞定!本文深入剖析UniVL的核心设计:**双流编码器**保证检索效率,**交叉编码器**实现深度融合,配合**5个精心设计的预训练目标**(含创新的CMFM掩码帧预测),在HowTo100M上预训练后,5个下游任务全面开花🚀。特别亮点:EnhancedV策略通过100%文本掩码强制模型学习视频表征,StagedP两阶段训练加速收敛。实测YouCook2检索R@1达28.9%,碾压同期工作!附详细公式推导和shape标注📊

2025-09-27 14:15:27 1018

原创 【多模态必读】看!图!说!话!2021 arxiv CLIPCaption: CLIP Prefix for Image Captioning

🔥看!图!说!话!模型!🔥。本文深入解读2021年arxiv上的ClipCap论文,这是一种巧妙的图像描述生成方法。与传统端到端训练不同,ClipCap冻结了预训练的CLIP视觉编码器和GPT-2语言模型,仅训练一个轻量级映射网络来连接两者🔥。文章详细剖析了两种训练策略:微调GPT-2获得更强表现力 vs 冻结GPT-2实现极致轻量。最有趣的是,这篇论文名为"Prefix"却实际采用了Prompt Tuning架构,展现了PEFT技术早期发展的有趣历史💡包含完整的方法流程图、实验对比表格等

2025-09-26 15:35:13 506

原创 【多模态必读】CLIP4Clip视频-文本对比学习检索

CLIP4Clip论文精读笔记!🔥 这篇工作巧妙地把CLIP这个图文预训练模型迁移到视频检索任务上,核心思路是把视频当作"帧序列"来处理。论文提出了三种相似度计算方式:无参数型(简单均值池化)、序列型(LSTM/Transformer捕获时序)、紧密型(跨模态交互)。实验发现一个有趣现象:在小数据集上,越简单的方法反而越好用!文中还探讨了2D vs 3D卷积、帧采样策略等实用技巧。2022在5个数据集上都刷新了SOTA,证明了"站在CLIP巨人肩膀上"的威力。适合想了解视频-文本检索的小伙伴参考~ 💪

2025-09-26 15:34:35 1029

原创 【多模态必读】全站最详细2023 ICML BLIP-2:Q-Former【视觉+文本】跨模态交互

🔥跨模态交互组件,Q-Former始祖,BLIP-2巧妙解决视觉-语言大模型训练成本高昂的痛点。通过创新的Q-Former架构,两阶段训练策略如何各司其职、32个Learnable Query如何实现信息瓶颈、三种注意力掩码怎样控制跨模态交互。更有大量实践insights:为什么要隔层插入交叉注意力?prefix text到底是不是泄露答案?

2025-09-25 18:16:36 1109

原创 【多模态必读】全站最详细2021 CVPR ClipBERT 视觉语言学习 Video-and-Language Learning精读笔记

🔥 CLIPBERT:用"偷懒"的方式让AI看懂视频,性能反而更强了!你有没有想过,训练AI看视频时用更少的数据,效果反而会更好?CLIPBERT就做到了这一点!这个来自CVPR 2021的研究颠覆了传统思路。以前的方法需要处理视频的每一帧,计算量巨大。而CLIPBERT采用"稀疏采样"策略,训练时随机抽取1-4个视频片段就够了,推理时才用16个片段。这就像考试时只复习重点章节,但考试成绩却比全书背诵的同学还要好。

2025-09-25 18:16:13 812

原创 适用于校园服务器:无魔法情况下Linux(x86_64)安装Anaconda3【linux无魔法windows有魔法但是能联通linux服务器】-20250922

摘要: 本文介绍在无魔法校园服务器(x86_64 Linux)上安装Anaconda3的方法,通过Windows下载并上传安装包实现。步骤包括:1)从官网下载对应版本(如Anaconda3-2024.06-1);2)使用FileZilla上传至服务器;3)执行安装脚本,默认路径为~/anaconda3;4)配置环境变量(可选自动激活base环境);5)建议配置清华源加速依赖下载,并附一键配置命令;6)验证安装及创建Python 3.8.20虚拟环境。适用于个人或多人服务器环境,兼顾效率与灵活性。

2025-09-24 12:49:38 832

原创 在无 sudo、仅国内源/离线条件下,一次性跑通 BLEU / METEOR / ROUGE_L / CIDEr / SPICE

本文介绍了在无sudo权限、仅使用国内源/离线资源的条件下,从安装JDK 8到成功运行SPICE、ROUGE_L、METEOR、BLEU和CIDEr评测指标的全流程。关键步骤包括:1)通过清华源安装JDK 8并配置环境变量;2)在conda环境中安装Python依赖和离线安装pycocoevalcap;3)手动部署Stanford CoreNLP 3.6.0资源并添加"已就绪就早退"的安全补丁,防止重复下载。该方案解决了高版本JDK兼容性问题,适用于离线环境下的稳定评测。

2025-09-24 12:22:19 1174

原创 极简清华源Linux安装JDK8

本文介绍了在Ubuntu 22.04系统上安装Java JDK8的步骤:1)从清华镜像下载JDK8压缩包;2)解压并验证bin目录下的java和javac文件;3)通过临时环境变量测试安装;4)将JAVA_HOME和PATH变量永久写入.bashrc文件。安装完成后,通过java -version命令验证版本号确认安装成功,适用于需要使用旧版JDK8的开发环境。

2025-09-24 12:14:19 758

原创 【多模态必读】BLIP论文逐行解读:揭秘Salesforce如何用自举策略刷新22年SOTA

如何用一个模型同时搞定图像理解和文本生成?BLIP作为视觉-语言预训练领域的里程碑工作,首次实现了理解与生成任务的统一建模。本文深入剖析BLIP的三大核心创新:MED多模态混合编解码器架构、CapFilt自举去噪机制、以及ITC/ITM/LM三重预训练目标。

2025-09-04 17:14:32 999

原创 【代码:万字长文+保姆级手把手带练】AI 大模型 Prompt Engineering:基于开放大模型ERNIE-SPEED-128K API的实践

【代码级】2万字保姆级教程,手把手入门Prompt Engineering! 基于百度ERNIE Speed免费API,提供1000+行可运行代码,从入门六大要素到应用级系统构建,带你掌握与AI对话的艺术

2025-08-23 01:28:16 1324

原创 【深度学习】PyTorch中间层特征提取与可视化完整教程:从零开始掌握Hook机制与特征热力图

🔥 还在把神经网络当黑盒子?本文通过PyTorch的Hook机制,手把手教你提取神经网络任意层的特征,并用多种可视化技术直观展示模型到底"看到"了什么。从零开始构建完整的特征可视化系统,包括特征图提取、Grad-CAM热力图生成、激活分布分析等核心技术。全文代码可直接运行,配套FashionMNIST数据集,小白也能轻松上手!让你的模型不再神秘,调试优化有的放矢!💡

2025-08-20 11:26:01 1373

原创 AI视觉系统的致命弱点:一张贴纸就能骗过自动驾驶!深度解读物理对抗样本开山之作

🔥当AI遇上现实世界的"视觉欺骗"!本文精读Google Brain经典论文,全面解析物理对抗样本的生成原理与攻击机制。对抗样本研究已从数字图像延伸到物理世界。通过在真实物体上添加特定的扰动图案,可以影响深度学习模型的识别结果。本文介绍物理对抗样本的基本原理、常见生成方法,以及在交通标志识别、人脸识别等场景中的实际表现。同时探讨现有的防御机制和未来研究方向,帮助开发者更好地理解和应对AI系统在真实环境中面临的安全挑战。

2025-08-20 10:27:14 838

原创 【速通】深度学习模型调试系统化方法论:从问题定位到性能优化

【干货】深度学习模型调试方法论 - 让Debug效率提升10倍!【假的】 🔧还在为模型不收敛抓狂?本文总结了一套系统化的深度学习调试方法论,从三层调试架构(代码层→数值层→优化层)到问题诊断清单,涵盖梯度检查、NaN检测、过拟合诊断等高频场景。

2025-08-18 23:57:27 1099

原创 【公式+代码】mPLUG-2:跨文本、图像、视频模块化多模态基础模型【论文精读注解】

【学习笔记】mPLUG-2多模态模型精读注解 - 小白也能看懂! 📝跟着论文一起学习阿里达摩院的mPLUG-2模型!本文是我的学习笔记,详细记录了模型的三大核心模块(视觉编码器、文本编码器、跨模态融合),逐行解读关键公式含义,标注了数据在网络中的shape变化过程。特别整理了ITC、ITM、MLM三个损失函数的作用和计算方式。作为一个正在学习的小白,我把容易困惑的地方都做了注释,希望能帮到同样在学习多模态AI的朋友们!

2025-08-18 23:49:04 1023

原创 警!你连写个class都要问GPT:我们是在用AI学习,还是在被AI驯化?

💔 离开ChatGPT就不会写代码了?AI正在把我们从"创造者"变成"搬运工"!为什么越用AI越笨?程序员、学生、科研工作者必看:如何打破"思维被AI绑架"的恶性循环,重新掌控自己的大脑!

2025-08-17 21:05:38 1144

原创 GPT5 你真的会用吗?为什么测评说牛的GPT5,你用起来笨笨的?OpenAI官方 GPT-5 Prompt手册解读

🔥 GPT-5来了,但99%的人都用错了! OpenAI官方Prompt指南首次公开:为什么别人的GPT-5像超级助手,你的却像个"智障"?本文深度解读官方万字手册,揭秘Responses API带来5%性能提升、Agent工作流精准控制、Cursor团队独家调教秘籍。从"笨笨的AI"到"生产力倍增器",一文掌握GPT-5正确打开方式!

2025-08-17 20:15:17 1150

原创 Nature大佬公开ChatGPT学术写作终极指南!

🔥Nature副教授亲自下场,公开ChatGPT学术写作核心Prompt!本文独家整理Dritjon Gruda教授在Nature发表的AI辅助论文写作方法,包含3个即用即走的Prompt模板:论文润色、同行评审、编辑反馈。中英双语对照,手把手教你如何让ChatGPT成为你的学术写作助手。⚠️附完整伦理准则,强调AI仅辅助不替代,拒绝学术不端!顶刊编辑的私藏技巧,速度收藏!

2025-08-16 22:41:04 1358

原创 《GPT-5辅助科研创新:几分钟搞定一个创新点》

如何用GPT-5快速探索模块组合创新?本文通过真实案例,手把手教你用GPT-5将CSTA和解码器模块组合成新方法,架构设计、数学推导等。这是GPT-5辅助科研的真实效率。本文以CSTA+Decoder组合为例,展示完整的创新流程:任务分析→方案设计→公式推导→代码实现→论文撰写。附赠实用提示词模板、避坑指南和学术规范建议。

2025-08-16 21:23:26 931

原创 2021 IEEE【论文精读】用GAN让音频隐写术骗过AI检测器 - 对抗深度学习的音频信息隐藏

本文详解2021年IEEE论文《Learning to Generate Steganographic Cover for Audio Steganography Using GAN》的核心创新点。该方法通过生成对抗网络自动学习生成优质隐写载体音频,采用生成器、判别器和隐写分析器三方对抗训练,实现了对深度学习检测器的主动防御。实验表明,在各种嵌入率下检测准确率接近50%随机猜测水平,PESQ评分达4.42,成功实现了高感知质量与强抗检测性的双重目标。

2025-08-15 23:13:00 1222

原创 AI大模型一键绘制任何结构图:高效智能结构图绘制,让Claude帮你秒变专业结构图绘制师

AI一键绘制万能图!流程图,思维导图,结构图,饼图。AI绘制结构图,让变成专业结构图绘制er!

2025-08-15 21:30:41 1987

原创 2020 GPT3 原文 Language Models are Few-Shot Learners 精选注解

【GPT-3内容选读笔记】从1.17亿到1750亿参数,看AI如何学会"举一反三"!本文深入解读OpenAI的GPT-3论文核心内容,揭秘它如何仅凭几个例子就能翻译、写作、做算术。带你了解零样本、少样本学习的奥秘,看懂AI发展的关键转折点。附详细图解和通俗解释,小白也能读懂的技术科普!

2025-08-15 20:11:42 919

原创 2019 GPT2原文 Language Models are Unsupervised Multitask Learners - Reading Notes

一文读懂GPT-2原论文!本文对《Language Models are Unsupervised Multitask Learners》进行逐段精读注解,用通俗语言解释零样本学习、模型架构、WebText数据集等核心概念。特别整理了GPT-1与GPT-2的详细对比表,补充了Decoder-only架构解析。适合想深入理解GPT-2但觉得原论文晦涩的读者。

2025-08-14 18:36:58 1263

原创 ICLR 2021 Transformer用于大规模图像识别 Vision Transformer ReadingNotes

颠覆CV的革命性工作!谷歌Vision Transformer (ViT)论文精读。ViT毅然放弃了统治CV领域多年的CNN架构,将图像粗暴地切分为16x16的“单词”序列,直接送入一个标准的Transformer,最终在ImageNet等多个核心基准上性能全面超越CNN。本文深入剖析其简洁而强大的架构设计,揭示“数据规模胜过归纳偏置”这一核心洞见。

2025-08-14 17:55:32 978

原创 优快云博客小白入门指南:Markdown编辑器入门

还在为优快云写博客发愁?这份小白专属指南让你10分钟上手!从最基础的Markdown语法讲起,教你轻松搞定标题、列表、代码块、图片插入等常用格式。更有优快云平台独家写作技巧:如何设置文章标签提升曝光、怎样优化排版让读者看得舒服、发布时间选择小窍门等实用tips。零基础也能快速变身技术博主,让你的第一篇博客就能写得有模有样!

2025-08-14 13:53:23 847

原创 2018 GPT1原文-OpenAI-Report Improving Language Understanding by Generative Pre-Training Reading Notes

这是一篇划时代的论文!OpenAI团队提出的GPT-1模型首次展示了"预训练+微调"范式的强大威力。通过在大规模无标注文本上进行生成式预训练,然后针对特定任务微调,GPT-1在12个自然语言理解任务中的9个达到了当时的最佳性能。这种通用的、任务无关的方法为后续的GPT系列奠定了基础,开启了大语言模型的新纪元。值得每个AI从业者深入研究!虽然此文距离当今比较久远,但是其思想仍在学术界有重要的参考价值。

2025-08-13 16:19:06 844 4

原创 ICLR 2015 对抗样本解释利用Adversial Examples ReadingNotes

深度学习模型的致命弱点被揭开!Ian Goodfellow等人在这篇开创性论文中颠覆了传统认知:对抗样本的存在不是因为神经网络"太复杂",而是因为它们"太线性"!通过在高维空间中微小扰动的累积效应,研究者提出了快速梯度符号方法(FGSM),能够轻松"欺骗"最先进的AI模型。更令人震惊的是,一个对抗样本可以同时愚弄多个不同架构的模型。论文不仅揭示了AI的根本脆弱性,还提出了对抗训练作为防御手段,在MNIST上创下当时最佳记录。这项工作如同给AI安全领域投下重磅炸弹,彻底改变了我们对机器学习模型可靠性的理解。

2025-08-13 12:30:29 944

原创 《Transformer黑魔法Mask与Softmax、Attention的关系:一个-∞符号如何让AI学会“选择性失明“》

Attention机制是Transformer的核心,但如何让它"有选择地注意"?答案藏在一个优雅的数学技巧中:通过Mask给特定位置的注意力分数加上-∞,再经过Softmax函数时,e^(-∞)→0使这些位置的权重精确归零。这个简单操作解决了两大难题:防止模型"预见未来"(Look-ahead Mask)和忽略填充符号(Padding Mask)。本文从数学原理到工程实现,全方位解析这个让Transformer真正work的关键设计。

2025-08-06 21:47:23 705

原创 Transformer最“反直觉”的设计:小白一文看懂【训练】与【推理】为何如此不同

看不懂?Transformer的训练和推理的区别?小白也能看懂的大白话Transformer的训练与推理看似矛盾:推理时需逐步预测,而训练时却能并行处理整句。关键在于两大机制:教师强制(Teacher Forcing)在训练时直接提供正确答案作为输入,避免错误累积;带掩码的自注意力通过屏蔽未来信息,确保模型仅基于历史上下文预测。二者结合,使模型在单次前向传播中完成所有位置的“逐步”预测,实现高效并行训练。本文通过公式、数据流和代码示例,直观解析了这一“反直觉”设计的精妙之处。

2025-08-06 21:10:05 1280

原创 NIPS 2021 ALBEF Align before Fuse视觉语言表示学习动量蒸馏【论文精读笔记】

📋 文章摘要:本文深度解读ALBEF (Align before Fuse)——NeurIPS 2021论文,一个突破性的视觉-语言预训练模型。🔥 核心创新1先对齐再融合:创新性地在跨模态融合前进行图像-文本表示对齐2动量蒸馏:利用教师模型伪目标改善噪声数据学习,提升训练稳定性3理论完备:基于互信息最大化提供坚实理论基础4工程优化:无需边界框标注,摆脱高分辨率图像依赖

2025-07-01 02:15:46 2240

项目pyqt5基于python的照片整蛊项目

环境,项目,使用说明

2025-11-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除