自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

寸先生的AI道路

可上九天揽月,可下五洋捉鳖,谈笑凯歌还

  • 博客(321)
  • 资源 (1)
  • 收藏
  • 关注

原创 Transformers without Normalization解读

2025年3月13日,由何凯明和Yann LeCun领衔的论文Transformers without Normalization挂载Arxiv上,大佬论文必须读一下。本文就该论文进行一个简单总结。

2025-03-17 08:53:59 706

原创 AI作曲DiffRhythm原理及本地部署

最近AI在音乐生成方面的进展引起了极大的关注,但现有的方法面临着严重的限制。一些当前的生成模型只能合成人声或伴奏轨道。虽然一些模型可以生成组合的人声和伴奏,但它们通常依赖于精心设计的多阶段级联架构和复杂的数据管道,阻碍了可扩展性。此外,大多数系统仅限于生成短音乐片段而不是全长歌曲。此外,广泛使用的基于语言模型的方法受到推理速度慢的困扰。DiffRhythm是第一个基于潜在扩散模型的歌曲生成模型,能够在短短 10 秒内合成具有人声和伴奏的完整歌曲,持续时间长达 4m45s,保持高音乐性和可理解性。

2025-03-14 17:28:39 1099

原创 Gemma 3简介与部署

发布背景:Gemma 3 是2025年3月12日谷歌在之前发布的 Gemma AI 模型基础上的升级之作,基于 Gemini 2.0 技术打造。模型规模:提供了四种不同尺寸的模型,分别是 1B、4B、12B 和 27B,以满足不同硬件性能的需求。

2025-03-14 08:21:24 2778 1

原创 CogView4介绍和本地部署

2025年3月4日由智谱发布的全网首个支持中文生成的开源模型CogView4开源地址https://github.com/THUDM/CogView4,CogView4遵循Apache 2.0协议,是首个以此协议开放的图像生成模型,为开发者提供了更灵活的使用空间,学生党做毕设再也不用跪求版权图。

2025-03-11 08:46:40 1023

原创 CAMEL-AI OWL部署测试

技术原理上,OWL 通过动态智能体交互实现高效的任务自动化,强调智能体之间的协作模式和通信协议,并基于 CAMEL-AI 框架开发,大语言模型(如 OpenAI 兼容模型)作为智能体的核心能力。实测一下,还是比较费Token的,而且如果遇到网站反爬之类的还会有问题,Manus没有用过没有发言权。至少对比了openManus和OWL,感觉这个是Agent的曙光,但是真的使用,速度慢,费用较高,还有很大提升改进空间,个人觉得至少在目前,全自动可能还不太好用,人机协同会更好。文件,接入所需的 API 服务。

2025-03-10 20:51:50 1580

原创 OpenManus介绍及本地部署体验

OpenManus,由 MetaGPT 团队精心打造的开源项目,于2025年3月发布。它致力于模仿并改进 Manus 这一封闭式商业 AI Agent 的核心功能,为用户提供无需邀请码、可本地化部署的智能体解决方案。换句话说,OpenManus 就像一位全能的数字助手,能够在你的本地设备上运行,随时听候差遣,完成各种复杂任务。它的出现,打破了技术领域的高墙,让每一位开发者都有机会站在同一起跑线上,快速实现诸如代码生成、数据分析、网络信息检索等复杂任务的自动化处理。

2025-03-09 10:28:07 22331 10

原创 QWQ-32B概述与本地部署使用

2025年3月5日,阿里巴巴千问QwQ-32B,即DeepSeek之后,中国AI大模型有一次震惊世界。QwQ-32B 的运行成本显著低于 DeepSeek-R1 等模型,性能更优,成本仅为 1/10,体现了我国在被外国技术封锁的情况下进行进行自主创新的能力。QwQ 是 Qwen 系列的大模型之一,专注于 推理能力(reasoning)。

2025-03-08 10:27:32 1513

原创 YOLO12简单解读

YOLO领域太卷,2025年2月18日YOLO12来袭。由于官方发布的只是技术报告,详细细节还有待代码阅读后补上,因此只是简单解读。

2025-02-19 20:15:46 2402 1

原创 DeepSeek本地部署及其他应用接入

本文综合了网上的文章及本地自行实践踩坑的记录。

2025-02-05 13:12:43 10361 3

原创 YOLO11王者荣耀英雄状态检测

这里可以从网上下载王者荣耀游戏视频,或者本地游戏时候保存的视频,然后用视频工具或者QQ截屏截取不同的游戏画面图片后,用labelme手动标注。我这里标注了886张图片,共计6个英雄状态类别:attacked_by_tower(被塔打), death(死亡),destroy_towers(打塔), kill_heroes(杀死英雄), kill_minions_monsters(杀怪), killed(被杀),其中划分数据集如下:训练集619张,验证集177张,测试集90张。

2025-01-23 16:49:17 384

原创 GroupMamba解析及测试

GroupMamba

2024-12-27 09:23:01 1001

原创 不平衡数据集处理方式总结

假设我们有。

2024-11-24 15:19:20 1102 1

原创 Stable diffusion 3.5本地运行环境配置记录

一名古代风格的中国女学生坐在现代的计算机教室里面学习编程”安装transformer和tokenizer。Jupyter能使用Anaconda虚环境。解决:安装高于Pytorch>2.0。安装量化库节约VRAM GPUs。安装最新版本的diffuser。安装sentencepiece。根据项目需要安装其他库。

2024-11-04 09:29:10 1619

原创 nnMamba用于糖尿病视网膜病变检测测试

对比之前的几种mamba,针对糖尿病视网膜病变数据集,采用同样的训练参数:300 Epochs,32 Batch Size。这里我只是在增加了一层Residual Block提取,验证集最好的ACC是96.53%如果继续优化层的设置,应该会有更好的提升,这里就不继续做了。

2024-10-25 11:16:38 459

原创 nnMamba原理和代码调测

这个实现的就是分类模型,我对原文中图像和源码进行了一定的标注,方便理解,论文中针对的3D图像,我这里按照2D的简单写,不影响理解。对照源码和图像可以发现,源码中是每组3个Res-Mamba块,每组的输出进行了分辨率维度的池化,然后拼接reshape后送入mamba,图中还有一个池化拼接后的特征和经过mamba的特征加和的操作图中没有体现。这个类似SENET中的SE分支计算加权系数,贴了一个SENet中的图,实现的就是下面红框部分。对应的是论文中的下图,但不知道是不是我下载的论文版本不对,感觉这个图有问题。

2024-10-24 16:33:04 943

原创 [问题解决]apt update出现“Segmentation faultsts”问题解决

安装后sudo apt-get clean 一下,然后update就没有问题了,但是安装软件提示apt版本太低,这个时候根据提示升级就可以了,没有再报错。以往遇到问题先想着搜答案,结果绕了一圈都没有解决,最后还是从日志中发现蛛丝马迹,可见日志查看的重要性,毕竟每个人的电脑问题不一样,即使表现出来的错误相同。怀疑是libapt-pkg.so.6.0.0出问题了,该文件在/usr/lib/x86_64-linux-gnu下面,切进去看,刚开始下了2.0.10的,dpkg -i 安装报错,提示缺少依赖。

2024-10-22 16:32:04 369

原创 MambaVision原理和源码调测

后面可以看到代码实现也是按照N/2写的。

2024-10-15 16:27:10 2056

原创 MedMamba代码解释及用于糖尿病视网膜病变分类

原理简述就是图片输入后按通道输入后切分为两部分,一部分走二维分组卷积提取局部特征,一部分利用Vision Mamba中的SS2D模块提取所谓的全局特征,两个分支的输出通过通道维度的拼接后,经过channel shuffle增加信息融合。可能是没有用任何的训练调参技巧,经过几个epoch后,验证集准确率很快提升到了92.3%,然后就没有继续上升了。总体论文原理比较简单,但是论文实验做得很扎实,感兴趣查看原文。作者在原文中尝试了大中小三个不同的参数版本。这部分就是论文提出的创新点,图片中的结构。

2024-10-10 11:30:36 1903 1

原创 Understanding Diffusion Models: A Unified Perspective翻译和公式补充解读

“Understanding Diffusion Models: A Unified Perspective”是一篇写的非常好的扩散模型DDPM数学原理解读文章,这里翻译了一遍,对于一些细节补充记录一下,方便对照原文更好的理解。这篇文章作者是Calvin Luo,来自Google Research的Brain Team,详细介绍了生成模型(Generative Models)的背景知识,包括证据下界(Evidence Lower Bound, ELBO)、变分自编码器(Variational Autoen

2024-04-10 23:13:45 2064

原创 【论文阅读笔记】Mamba模型代码理解

Mamba模型代码实现及理解

2024-04-07 08:47:58 24740 29

原创 【论文阅读笔记】SegMamba: Long-range Sequential Modeling Mamba For 3D Medical Image Segmentation

论文提出 3D 医学图像分割Mamba模型,与基于 Transformer 的方法相比,SegMamba 在状态空间模型的整个体积特征建模方面表现出色,体积特征的分辨率为 64×64×64。在BraTS2023数据集上进行验证。图片已经画得很清楚,都是基本块组成,只是将transformer块中的CNN换成了mamba块。在BraTS2023 数据集实验效果。

2024-01-26 08:12:15 1586 5

原创 【论文阅读笔记】Towards Universal Unsupervised Anomaly Detection in Medical Imaging

医学图像异常检测

2024-01-25 15:30:14 1725 1

原创 【论文阅读笔记】MOSformer: MOmentum Encoder-based Inter-Slice Fusion Transformer for Medical Image Segmentat

提出了一种新型的用于医学图像分割的深度学习模型MOSformer。它主要通过双编码器设计和动量更新方法来提高2.5D医学图像分割模型的性能,其中一个编码器使用动量更新保持切片表示的一致性。此外,它还引入了一种名为IF-Swin的变换器模块,通过在切片维度扩展窗口自注意力机制,实现多尺度特征图之间的有效融合。

2024-01-24 10:25:34 1343 1

原创 【论文阅读笔记】MGIML: Cancer Grading with Incomplete Radiology-Pathology Data via Memory Learning and Gradi

本文提出了一个新的框架,名为MGIML,用于处理不完整的放射学-病理学数据进行癌症分级。主要创新在于利用记忆学习和梯度均衡化来处理数据的不完整性问题。具体来说,论文介绍了两个关键方案:记忆驱动的异质模态补全(MH-Complete)和旋转驱动的梯度均衡化(RG-Homogenize)。这些方法旨在提高模型在处理不完整数据时的性能,通过记录和阅读跨模态记忆来补充丢失的模态信息,同时优化梯度方向和大小的冲突,以提高癌症分级的准确性和效率。

2024-01-23 17:21:46 1380 1

原创 【论文阅读】Augmented Transformer network for MRI brain tumor segmentation

本文的创新之处在于构建了改进的增强型transformer 模块,这些模块结合了标准transformer 块中的增强短路(Augmented Shortcuts),被策略性地放置在分割网络的瓶颈处,以保持特征多样性并增强特征交互和多样性。Kra 和 Simanca, 2012)在傅里叶域上通过快速傅里叶变换(FFT)的效率和有效性的启发,循环矩阵和向量之间的乘积带来了较小的计算复杂度。这样的设计允许网络在每一层中捕获和融合更加丰富和多样化的特征,有助于提高模型的性能和鲁棒性。扮演循环矩阵的角色,

2024-01-22 16:13:46 886 1

原创 【长文阅读】MAMBA作者博士论文<MODELING SEQUENCES WITH STRUCTURED STATE SPACES>-Chapter6 Combining Orthogonal and

HIPPO指定了一类特定的矩阵。

2024-01-22 11:38:35 2181

原创 【长文阅读】MAMBA作者博士论文<MODELING SEQUENCES WITH STRUCTURED STATE SPACES>-Chapter5 HIPPO as Orthogonal SSMs

如果一个状态空间模型(SSM)由。

2024-01-22 10:54:13 1738 1

原创 长文阅读】MAMBA作者博士论文<MODELING SEQUENCES WITH STRUCTURED STATE SPACES>-Chapter4 HIPPO

给定。

2024-01-21 16:01:39 2752 1

原创 【长文阅读】MAMBA作者博士论文<MODELING SEQUENCES WITH STRUCTURED STATE SPACES>-Chapter3 Computing SSMs

Chapter 3 Computing Structured SSMsGu A. Modeling Sequences with Structured State Spaces[D]. Stanford University, 2023.本文是MAMBA作者的博士毕业论文,为了理清楚MAMBA专门花时间拜读这篇长达330页的博士论文,由于知识水平有限,只能尽自己所能概述记录,并适当补充一些相关数学背景,欢迎探讨与批评指正。内容多,分章节更新以免凌乱。第3章讨论了结构化状态空间模型(SSM),特别是S

2024-01-21 10:35:48 1888

原创 【长文阅读】MAMBA作者博士论文<MODELING SEQUENCES WITH STRUCTURED STATE SPACES>-Chapter2 Sequence Modeling with S

离散化后的SSM被定义为一个序列到序列的映射。

2024-01-19 23:41:48 1816

原创 【长文阅读】MAMBA作者博士论文<MODELING SEQUENCES WITH STRUCTURED STATE SPACES>-Chapter1

这篇文档的摘要介绍了在机器学习领域的显著进步,特别是在序列模型方面,这些模型对深度学习在各种科学应用中的成功至关重要。尽管目前的方法取得了成功,但它们在处理复杂的序列数据(如涉及长期依赖性的数据)时存在限制,例如需要大量的特定任务专业化、计算效率低下等问题。为了解决这些问题,论文介绍了一种使用状态空间模型的新方法。这些模型灵活、理论基础扎实、计算效率高,并且在多种数据类型和应用中表现出色。它们扩展了标准深度序列模型(如循环神经网络和卷积神经网络)的功能。

2024-01-19 17:53:39 1051

原创 【论文阅读笔记】Cross-modality Guidance-aided Multi-modal Learning with Dual Attention for MRI Brain Tumo

在BraTS2018和BraTS2019数据集上,该方法展现出优越性能,超越了单模态方法和多种最新的多模态方法,实现了高准确性和鲁棒性的脑肿瘤分级。特点:RMC结合了2D和3D卷积,包括一个包含3D卷积层的主体,一个3D卷积块和三个2D卷积块。特点:利用主要模态的高级别特征和次要模态的低级别特征之间的引导,来强调更具信息性的特征,同时抑制较少信息的特征。根据单模态模型的表现,将模态分为主要模态和次要模态。将其提出的方法与三种基本的多模态融合方法以及两种现有的MRI多模态分类方法进行了比较。

2024-01-19 11:34:56 820 2

原创 【论文阅读笔记】U-Mamba: Enhancing Long-range Dependency for Biomedical Image Segmentation

在四个不同的任务上进行了广泛的实验:CT和MR图像中的3D腹部器官分割、内窥镜图像中的器械分割以及显微镜图像中的细胞分割。将CNN的局部特征提取能力与状态空间序列模型(SSM)的长程依赖性能力相结合。U-Mamba采用了一个编码器-解码器(encoder-decoder)的网络结构,这种结构能够同时捕获局部特征和长程上下文。​ U-Mamba块的核心是结合了卷积层和SSM的混合块。本文对Mamba结构用于图像领域进行了简单的探索,就结构来说没有特别多创新,就是插入了Mamba块,但可以遇见下一个坑的到来。

2024-01-18 11:18:17 6100 1

原创 【论文阅读笔记】Sam3d: Segment anything model in volumetric medical images[

与传统的逐层处理不同,SAM3D能够在整个体积上处理图像,更有效地捕捉切片间的深度关系,同时维持模型的简单性和计算效率。:通过在多个医学图像数据集上的实验,只需要单2080TI GPU,SAM3D显示了与当前最先进的3D神经网络和基于Transformer的模型相当的性能(其实弱很多),同时在参数数量上大大减少。去除了SAM中的prompts Encoder:因为解码器必须处理 3D 体积数据,所以不能使用 SAM 的掩模解码器,它是专门为 2D 自然图像设计的。

2024-01-18 10:31:05 1805 1

原创 【论文阅读笔记】Modality-Specific Information Disentanglement from Multi-parametric MRI for Breast Tumor Seg

但最终目标不是生成几乎相同的图像,只希望合成图像能够保留原始结构信息,但具有其他模态样式,例如肿瘤区域的 ADC 模态中的低强度和 T2w 模态中的高强度。置信度分数的计算考虑了当前模态与其他模态(例如DCE-MRI和ADC)的相互关系,从而确保每个模态贡献的信息是基于其与其他模态相比的相对重要性和可靠性。:提出了一种新的特定模态信息解耦(MoSID)框架,该框架能够有效地从多参数MRI中提取并利用跨模态和内模态的注意力图,这些图作为指导肿瘤分割的先验知识。步骤 3 利用特定于模态的信息来增强分割性能。

2024-01-17 15:34:53 717 1

原创 【论文阅读笔记】4篇Disentangled representation learning用于图像分割的论文

4篇应用解耦表示学习的文章,这里只关注如何解耦,更多细节不关注,简单记录一下。

2024-01-17 11:03:54 3863 1

原创 【论文阅读笔记】Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement and Gated Fusion

门控融合技术:用于将这些解耦后的特征有效地结合起来,形成一个统一的特征表示,用于后续的肿瘤分割任务。在缺失模态场景下,如果不仔细考虑,融合表示会受到来自空输入通道的噪声信息的影响,那么模型的性能将不可避免地下降。具体来说,将来自每个模态的解耦的内容编码连接起来,然后输入到输出通道为M的卷积层。这种方法增强了面对缺失数据时分割过程的鲁棒性,并在多种缺失模态的场景中显示出显著的改进。特征解耦部分:负责将不同成像模态(如MRI)的数据分解为模态特定的外观特征和跨模态的内容特征。方法是将输入的多种成像模态解耦为。

2024-01-16 17:10:23 693 1

原创 【论文阅读笔记】Multi-modal brain tumor segmentation via disentangled representation learning and region-awa

此外,提出了一种区域感知的对比学习方法,以进一步引导网络学习与目标区域相关的特征表征,从而提高分割精度。为了解决这个问题,作者提出了将学到的特征表示分解为与目标肿瘤区域相对应的多个因子,使网络能够提取对分割任务更有意义的特征。总体来说,2.1节强调了解耦表征学习在提高特征表示效果和可解释性方面的重要性,并展示了它在处理复杂的医学图像数据,尤其是脑肿瘤分割方面的潜力。:在实现上,作者采用了一种对比损失函数,这种损失函数鼓励模型产生的特征表征在相似区域内紧密,而在不同的区域间相隔较远。

2024-01-16 15:11:35 1443 1

原创 【论文阅读笔记】MedTransformer: Accurate AD Diagnosis for 3D MRI Images through 2D Vision Transformers

这个架构主要由四个部分组成:跨视图的自注意力编码器(Self-Attention Encoders, SAE)、特定维度的自注意力编码器(Dimension-specific Self-Attention Encoders, DS-AE)、维度内交叉注意力编码器(Intra-dimension Cross-Attention Encoders, IntraCAE)和维度间交叉注意力编码器(Inter-dimension Cross-Attention Encoders, InterCAE)。

2024-01-16 10:22:13 649 1

原创 【论文阅读笔记】Prompt Tuning for Parameter-efficient Medical Image Segmentation

这种方法基于预训练的神经网络,通过插入可学习的提示令牌(prompt tokens)来适应新的下游任务,例如在语义分割中识别新的类别。实验结果表明,这种提示调整方法在医学图像分割任务中,即使在标注数据稀缺的情况下,也能达到令人满意的性能,同时大大减少了所需调整的参数数量。:PUNet的设计允许网络通过非冻结的(可学习的)提示令牌进行适应,这对于医学成像数据的分割任务来说是足够的。:在PUNet中,提示令牌被深入地插入到网络中,这允许对编码的图像内容在网络的不同层次上进行调整。

2024-01-14 10:55:09 1555 1

DataSocket技术在网络化测试中的应用

基于Labview的DataSocket编程,快速构建网络化资源,使用基于VC的快速Active控件

2010-08-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除