- 博客(39)
- 收藏
- 关注
原创 SAM3看这一篇就够了,从模型图示详解到具体快速实践
SAM 3(带概念的片段)是一个统一的基础模型,用于图像和视频中的提示分割。它通过引入开放词汇分割,扩展了SAM 2的功能,使用户除了视觉提示(点、框、遮罩)外,还能使用自然语言文本提示对对象进行分割。该系统可以:1.检测并分割所有由文本或视觉提示指定的概念实例2.在视频帧中跟踪物体,并保持时间一致性3.通过训练数据处理400万+个独特概念4.通过专用API处理单幅图像和视频序列。
2025-11-23 22:36:27
2138
2
原创 HTML 快速入门指南
有些标签不需要包裹内容,它们自身就代表一个事物,所以不需要结束标签。一个完整的 HTML 文件有固定的“模板”结构,你需要始终遵守它。为了让代码更易读、更利于 SEO(搜索引擎优化)和无障碍访问,我们推荐使用有“你不需要记住所有标签,先掌握下面这些,你就能构建出 90% 的静态页面了。是图片),那么“属性”就定义了“它是什么样的”。包裹着**“内容”**,三者合在一起称为一个。标签是 HTML 的基本单位,用尖括号。如果说“标签”定义了“这是什么”(比如。甚至可以省略,但加上更规范)。
2025-11-10 09:33:04
1845
原创 汉字验证 (HTML & JavaScript)代码及其知识点
您可以将以下代码保存为一个.html文件(例如index.html),然后直接在浏览器中打开运行。<//* 简单的页面居中和样式 */body;display;;;min-height;;.container;padding;;text-align;h2color;margin;display;;;padding;font-size;width;border;;font-size;color;;border;;
2025-11-10 09:20:26
428
原创 PEFT完整指南:大模型参数高效微调的规范化
PEFT(Parameter-Efficient Fine-Tuning,参数高效微调)是一套系统化的大模型微调方法论,通过冻结大部分预训练参数、仅训练极少数参数(通常占0.1%-5%),显著降低微调成本,使大模型微调更加规范化、范式化和安全化。相比传统全参数微调需要80GB+显存的方式,PEFT可将资源需求降低数十倍,让企业和个人能够在有限的计算资源下高效定制专属大模型。
2025-11-06 10:47:06
652
原创 LoRA及其最新变体技术深度分析:底层原理与实际应用技巧全解
LoRA(Low-Rank Adaptation,低秩适应)技术已成为大语言模型微调领域的核心技术之一,通过巧妙的数学设计实现了高效且灵活的模型适应方案。本研究深入分析了LoRA的底层机制、最新变体发展以及在实际应用中的关键技巧,为AI研究人员和工程师提供全面的技术指导。LoRA基本原理流程图:展示低秩适应的核心机制。
2025-09-26 14:58:00
711
原创 在ssh远程连接的autodl服务器(中国无root权限服务器)上使用copilt的Claude模型
摘要:国内用户在使用VSCode SSH远程连接服务器时,Copilot插件中的Claude模型可能因IP限制无法使用。解决方案是在VSCode设置文件(settings.json)中配置代理端口,并添加远程扩展运行方式设置,将Copilot插件指定为本地客户端(UI端)运行。具体步骤包括:1.配置代理服务器信息;2.添加"remote.extensionKind"设置项;3.保存后重新连接即可。该方法既能使用本地IP访问服务,又避免了每次连接新服务器重复安装插件的问题。
2025-09-24 17:01:41
1208
1
原创 多尺度可变注意力(Multi-Scale Deformable Attention)详解
*核心结论:**多尺度可变注意力通过在不同特征尺度上自适应采样少量关键位置,并对其进行加权聚合,显著降低注意力计算量并增强对多尺度目标的建模能力。
2025-09-22 10:37:30
1042
原创 DINOv3详解+实际下游任务模型使用细节(分割,深度,分类)+ Lora使用+DINOv1至v3区别变换分析(可辅助组会)
总结:前面是各版本对比+流程图表对比,可以拿了去做组会汇报,后面是dinov3的详解结构讲解(张量变化角度),然后是实际的GitHub项目中的下流任务的流程图(主要是分割的详细流程,还有深度,分类,检测的比较复杂没画),最后还有一个dinov3 LORA的项目推荐和部分分析讲解。
2025-09-22 10:19:56
6205
4
原创 在 Qoder 等 AI 二创 IDE 里用 VS Code Remote-SSH 的“曲线连接”实战
目标:让你在 Qoder 等在线/AI 辅助 IDE 中,也能像本地 VS Code 一样通过连接到自己的远程服务器进行开发。前提:只在的服务器上使用,遵守所用平台的条款与限制。
2025-09-15 10:57:20
1416
原创 os详解,从上面是‘os‘模块?到核心组成和常用函数
os模块是 Python 与操作系统交互的基石。掌握它的核心功能,特别是os.path子模块以及文件/目录操作函数,是进行任何涉及文件系统自动化的 Python 编程的必备技能。同时,了解并适时使用pathlib会让你的路径处理代码更加优雅和现代化。
2025-08-17 15:25:56
1028
原创 F.interpolate()详解,从什么是F.interpolate()?到深度学习实验中和插值相关的易犯错误
是 PyTorch 深度学习框架中 模块下的一个核心函数。简单来说,它的作用就是调整张量(Tensor)的尺寸,也就是我们常说的图像缩放或重采样(Resampling)。在深度学习中,数据通常以张量的形式存在。对于图像数据,一个典型的张量形状是 ,其中: 主要负责调整后面两个维度 和 (对于3D数据则是 )。它可以:它是一个功能强大且灵活的工具,是许多现代神经网络架构(如U-Net)不可或缺的一部分。 的函数签名如下:我们来逐一解析这些参数。这是需要进行尺寸调整的输入张量。它可以是3D、4D或5D的。
2025-08-14 12:26:40
1737
原创 eval函数详解,从什么是eval()到使用的黄金准则
eval()特性描述功能将字符串作为 Python 表达式来求值并返回结果。语法核心风险代码注入。绝不能用于处理不受信任的输入。安全用法通过提供受限的globals和locals字典来创建一个沙箱环境。安全替代方案(用于解析字面量)、类型转换 (int()float())、专用解析库 (NumExpr适用场景在完全受控和可信的环境下,用于动态表达式求值或实现简单的 DSL。如果你不确定是否应该使用eval(),那就不要用。优先寻找更安全的替代方案。
2025-08-13 13:19:05
1956
原创 cuDNN详解,从什么是cuDNN到实际应用过程
特性描述定义一个为深度学习优化的GPU加速库,由NVIDIA提供。核心功能提供高度优化的卷积、池化、归一化、激活函数等标准DNN操作的实现。工作方式作为深度学习框架(PyTorch, TensorFlow)和CUDA驱动之间的中间层。核心优势极致性能、算法自动选择、操作融合、支持混合精度计算。开发者交互通常是透明的、自动的。开发者无需直接编写cuDNN代码。如何启用1. 安装NVIDIA驱动、CUDA、cuDNN。2. 安装GPU版深度学习框架。3. 在代码中将模型和数据移至GPU。关键优化技巧。
2025-08-13 12:32:30
1324
原创 OHEM (在线难例挖掘) 详细讲解
OHEM 作为一种经典的难例挖掘算法,通过在训练过程中动态选择高损失的样本,有效地解决了目标检测中的类别不平衡问题,显著提升了模型的性能。尽管它会带来一定的计算开销,并且对噪声敏感,但其核心思想——让模型专注于困难样本——对后续的研究,如 Focal Loss 等,产生了深远的影响。在实际应用中,是否选择 OHEM,需要根据具体的任务、数据集以及计算资源进行权衡。
2025-08-12 15:59:20
1036
原创 Blender 快捷键速查表 (Cheat Sheet)
这是你在“物体模式”下最常用的操作。选中物体后按 键进入“编辑模式”。将这张表放在手边,在练习中有意识地去使用快捷键,很快你就能摆脱对鼠标点击的依赖,体会到Blender行云流水般的操作快感。
2025-08-09 22:10:29
2420
原创 关于灰度图像相似度的损失函数(笔记)
在计算机视觉领域,量化两幅图像之间的“差异”是一个根本性的挑战,其本质上是一个不适定问题(ill-posed problem)。简单地计算像素强度值的数值差异,往往无法捕捉到人类观察者所感知的有意义的区别。一幅灰度图像可以被表示为一个二维的强度值矩阵,这种表示方法虽然简化了计算,但舍弃了色彩信息,使得基于强度的比较成为评估其内容差异的首要手段。然而,即便是微小的几何变换,如单像素平移,也可能导致巨大的像素级误差,尽管在人类看来两幅图像几乎完全相同。
2025-08-09 20:10:23
1074
原创 抖音评论区“捞客户”累死人?这款自动化“拓客神器”让你效率翻倍!
我深知在抖音上获客的不易,希望能通过这个小工具,帮助到更多像我朋友一样,正在努力奋斗的创业者和营销人。把重复、枯燥的工作交给工具,把宝贵的时间和精力,留给更有价值的思考和沟通。如果你觉得这个工具对你有帮助,欢迎把它分享给更多有需要的朋友。
2025-07-26 16:15:31
1391
原创 BNN 技术详解:当神经网络只剩下 +1 和 -1
近期的研究表明,它同样可以用来压缩更先进、更复杂的架构,如 Transformer 和新兴的 Mamba 模型。为了应对精度损失,研究者们也提出了更精细的策略,比如只对模型中非关键的部分进行二值化,而保留其核心计算单元为全精度,从而实现性能和效率的最佳平衡。虽然它伴随着不可避免的精度损失,但通过精巧的结构设计和训练策略,我们可以在效率和性能之间找到最佳的平衡点。这些缩放因子是全精度的,它们会在二值化计算之后,对结果进行重新缩放,从而在一定程度上补偿二值化过程中丢失的动态范围和信息。则是全精度的缩放因子。
2025-07-16 19:02:41
857
原创 深度学习超参数优化(HPO)终极指南:从入门到前沿
本文是一篇关于超参数优化(Hyperparameter Optimization, HPO)的综合性指南,旨在带领读者从最基础的概念出发,系统性地梳理从经典到前沿的各类优化方法,并最终落地于实用策略和现代工具。最终,强大的HPO工具和方法论将研究人员从繁琐的“调参”工作中解放出来,让我们能够更专注于问题的定义、知识的融合和创新的突破,同时确保我们构建的模型都能发挥其最大潜能。利用最先进的LLM来优化下一代模型的创建过程,形成了一个强大的自我完善循环,这可能从根本上改变机器学习的研发模式。
2025-07-08 19:54:02
2009
原创 从优化器与调度器的理解到通用黄金方案与调参方法论
本文系统介绍了深度学习训练中的优化器和学习率调度器选择。主要内容包括: 优化器演进分析:从SGD到AdamW,重点介绍AdamW的解耦权重衰减优势; 推荐黄金组合:AdamW优化器+带预热的余弦退火学习率调度策略; 科学调参方法论:提出调参金字塔,强调应先确定学习率再调整权重衰减; 实践代码示例:展示PyTorch实现黄金组合的具体方法。 文章主张用系统化方法取代盲目试错,推荐使用学习率范围测试等技术科学确定超参数。
2025-07-08 16:08:20
825
原创 30 分钟入门LaTeX(超级无敌详细版—无需下载配环境)
LaTeX(发音为 “LAY-tek” 或 “LAH-tek”)是一种用于排版具有专业外观文档的工具。但是,LaTeX 的工作模式与您可能使用过的许多其他文档制作应用程序(例如 Microsoft Word 或 LibreOffice Writer)完全不同:这些“所见即所得”工具为用户提供了一个交互式页面,他们可以在其中键入和编辑文本并应用各种形式的样式。LaTeX 的工作方式非常不同:您的文档是一个纯文本文件,其中穿插着用于表达所需(排版)结果的 LaTeX命令。
2025-06-26 22:52:39
9230
原创 使用 Zotero Connector 插件快速保存网页文献(Edge浏览器教程)
Zotero 是一款开源的文献管理工具,搭配 Zotero Connector 插件可以一键保存网页上的学术资源、PDF 文件和快照,非常适合科研人员和学生使用。本文将介绍如何在 Microsoft Edge 浏览器中安装 Zotero Connector,并演示完整的使用过程。
2025-06-10 14:09:56
4849
原创 将anaconda从C盘移动到D盘(最安全方案)
重要前提:这是整个过程中最关键的一步,确保您的工作环境配置不会丢失。打开 Anaconda Prompt (或终端):查看您已有的环境列表:这会列出所有的 Conda 环境。记下你需要备份的自定义环境的名称(通常 环境不需要手动导出,它会在新安装时自动创建,但其中的包列表若有重要自定义也应考虑记录或导出)。激活环境: 将 替换为你要备份的实际环境名称。导出环境配置到 YAML 文件:建议在 D 盘创建一个专门用于存放备份的文件夹,例如 。例如,如果你的环境名为 ,则命令为:确保备份
2025-06-05 16:07:38
4109
原创 steam双人成行无法连接ea服务器快速解决
刚下了了双人成行进去了之后点在线游戏,就会出现这个错误,我看网上的教程改来改去的还是没有用,官网的文档也看不明白,但后面这么做就成功了。如果出现这个报错,说明你已经安装了,不用管它,开始游戏就行。然后出来,进入这个商店页面。然后在进去就可以正常使用了。
2025-05-31 20:23:37
2059
4
原创 Linux & Shell 脚本入门指南:从零到一的实用教程(笔记)
这份报告为您提供了一个坚实的起点,但真正的精通源于不断的实践和探索。(比如笔者就喜欢在初始目录下创一个begin.sh,在里面封装修改路径,激活虚拟环境还有换环境变量啥的,很方便,有的人直接在写项目的时候就把运行命令都封装到一个脚本里面,这样跑的时候就不用苦兮兮的看代码写命令了)(比如笔者就喜欢在初始目录下创一个begin.sh,在里面封装修改路径,激活虚拟环境还有换环境变量啥的,很方便,有的人直接在写项目的时候就把运行命令都封装到一个脚本里面,这样跑的时候就不用苦兮兮的看代码写命令了)
2025-05-28 23:03:57
352
原创 告别炼丹玄学:用科学方法找到你的最佳学习率
在神经网络的训练中,初始学习率(Initial Learning Rate)的设定是一个绕不开的话题。这既保证了学习的速率足够快,又与即将到来的不稳定区域保持了一个安全的距离。学习率范围测试将学习率的选择过程,从一个依赖模糊经验的步骤,转变为一个快速、可视化的数据分析过程。一个恰当的初始学习率,能引导模型在训练初期快速、稳定地走向损失函数的理想区域。因此,在训练开始前,花少量时间确定一个优良的起点,是一项回报率极高的投资。这个“安全”的默认值,还是根据经验为特定的模型和任务选择一个更小的值?
2025-05-28 15:14:34
1120
原创 深度学习中的正则化:原理、方法与PyTorch实践(笔记)
正则化通过向模型的优化目标(通常是损失函数)中添加一个额外的惩罚项(正则化项)来实现。这个惩罚项用于量化模型的复杂度。因此,优化过程不仅要最小化模型在训练数据上的预测误差(经验风险),还要最小化这个复杂度惩罚项,从而达到结构风险最小化的目的。控制模型复杂度:通过限制模型参数的大小或数量,降低模型拟合训练数据中噪声的能力。防止过拟合:减少模型对训练数据的过度依赖,使其能够更好地适应未见过的新数据。提升泛化能力:使模型学习到数据中更本质、更通用的规律,从而在新的、独立的测试集上取得更好的性能。
2025-05-17 20:23:39
1436
原创 PyTorch torch.no_grad() 指南(笔记)
的核心功能是在其作用域内临时禁用梯度计算和历史追踪。这意味着,在代码块内或被装饰的函数内执行的所有PyTorch张量运算,都不会被Autograd引擎记录到计算图中。
2025-05-17 20:22:53
1656
原创 TensorBoard - pytorch实战 - 笔记
除了上述核心方法外,还支持记录其他类型的数据,以满足更丰富的可视化需求。: 记录文本信息,可用于保存实验笔记、配置参数等。: 可视化高维数据(如词嵌入、图像特征)在低维空间的投影,通常在 TensorBoard 的 Projector 标签页显示。: 记录 Matplotlib 图表。: 记录视频数据。: 记录音频数据。: 记录精确率-召回率曲线 (Precision-Recall Curve),用于评估分类模型性能。: 记录 3D 点云或网格数据。
2025-05-13 22:10:16
972
原创 使用 Git 结合 GitHub 管理代码 - Autodl(笔记)
就能有效地在 AutoDL 这类服务器上利用 Git 和 GitHub 管理你的代码了。对于连接方式,SSH 更为长久方便,HTTPS+PAT 更易上手。理解每个命令的作用,养成良好的提交习惯(小步提交、清晰的提交信息),善用分支和。保持本地开发环境(如果有的话)与 AutoDL 服务器环境的代码同步。利用 GitHub 作为中央代码仓库,实现版本控制、备份和协作。在 AutoDL 服务器上方便地获取、修改和同步代码。命令)连接到你的 AutoDL 实例。
2025-05-13 12:56:30
2444
原创 笔记-gdown使用
当下载非常大的文件时,Google Drive 可能会显示一个警告页面,提示“Google Drive 无法扫描此文件是否包含病毒”,需要用户确认才能下载。如果遇到问题,可以尝试添加 --fuzzy 选项,它有时能帮助解析这类页面的下载链接。例如,如果一个文件的分享链接是 https://drive.google.com/file/d/THIS_IS_THE_FILE_ID/view?是一个基于 Python 的命令行工具,它可以方便地从 Google Drive 下载公开分享的文件和文件夹。
2025-05-12 11:49:36
1352
原创 AutoDl-较大文件上传最快方法
本文介绍了在AutoDl平台上上传较大文件的四种方法。方法一推荐使用MobaXterm工具,通过SSH连接实例进行文件上传,速度可达20mb/s至100mb/s,且免费。方法二建议使用公网网盘,如夸克网盘,但需付费且实际下载速度较慢。方法三推荐使用Google Drive上传文件,再通过gdown工具在容器内下载,速度适中且无需额外费用。方法四则适合小文件,直接在容器内上传,操作简单但速度较慢。根据文件大小和需求,用户可选择最适合的上传方式。
2025-05-12 11:25:51
8791
14
原创 玩转CV数据集:从获取、分析到PyTorch实战
假设你的图像数据存储结构如下:/path/to/your/custom_data/ <-- 这是你的数据集根目录 (root_dir)├── cats/ <-- 类别 “cats” 的子文件夹│ └── …├── dogs/ <-- 类别 “dogs” 的子文件夹│ └── …└── birds/ <-- 类别 “birds” 的子文件夹└── …
2025-05-11 23:09:57
1576
原创 Open-Vocabulary RGB-Thermal语义分割详解
然后将Z_RGB送入Correlative_attn得到Z_RGB_e,然后将Z_TH和Z_RGB_e直接相加,然后反卷积,reshape得到T_i.优化SAM的图像编码器中的一系列参数,以适应RGB和热成像模态之间的差异 ,即在SAM的基础上添加简单的网络结构进行微调,从而更好的融合特征。公式表示在生成自注意力机制的Q和V时添加了可训练参数Bq,Aq和Bv,Av,其中Wq和Wv表示线性层的参数,在训练时不改变它。其中,I_i是直接通过I_i_rgb和T_i+1相加得到的,而T_i则是通过TIP模块得到。
2024-12-01 22:26:19
1411
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅