- 博客(16)
- 收藏
- 关注
原创 YOLO11-Seg 原理全解:结构、训练与推理一站式梳理
本文系统梳理 YOLO11-Seg(下称 yolo11seg)的实例分割原理,覆盖整体结构、数据流维度随网络的变化、掩膜生成机制、正负样本(目标分配)以及推理流程。
2025-08-31 11:29:20
2172
原创 从CVAT“无法连接服务器”到根治磁盘危机——一次完整的Docker问题排查实录
最后,回到CVAT项目目录,执行 docker-compose up -d,服务顺利启动。再次访问Web界面,熟悉的标注工具终于出现,问题圆满解决。日志是根本: 任何“无法连接”的背后都有原因,而日志是揭示真相的唯一途径。洞察根本原因: 不要满足于解决表面问题(如重启OPA服务),要深入挖掘导致问题的根源(磁盘空间不足)。掌握工具原理: 理解 docker 的 data-root 配置等核心原理,能让你采取更优雅、更彻底的解决方案。细心与验证: 配置文件中的一个字符错误就可能导致整个服务瘫痪。
2025-07-28 15:25:37
1208
原创 构建智能问答系统的全景地图:LangChain、RAG、QA、MCP 的概念与协作
本文解析了构建智能问答系统的四大核心组件:LangChain作为流程控制框架,负责工具调度和多轮对话;RAG提供外部知识检索能力,减少模型幻觉;QA系统处理用户交互界面;MCP则标准化工具调用协议。这些组件协同工作,形成"用户输入→前端交互→智能调度→知识检索→模型响应"的完整链路。现代问答系统正从单一模型转向多组件协作架构,LangChain+RAG+MCP的组合尤其适合需要专业知识和多模态处理的场景,将成为医疗、科研等领域的重要技术方向。(150字)
2025-06-26 11:18:04
672
原创 VS Code 中为调试器增强变量显示:自动显示张量 Shape、DataFrame 维度和容器长度
你是否也有这样的痛点:在 PyCharm 中调试深度学习模型时,变量区会清晰显示张量的 shape 和 dtype,而在 VS Code 中却只能看到一团 tensor(...)?别急,这篇文章带你一步一步打造 VS Code 的“PyCharm 式调试体验”。
2025-06-12 09:06:34
907
原创 PyTorch 中的 expand 操作详解:用法、原理与技巧
在使用 PyTorch 进行深度学习时,与常常是让初学者感到困惑的地方。我们需要时常面对多维张量,并在批量、通道、空间位置等多个维度之间做运算。如果能熟练掌握各种维度变换操作——包括unsqueezeexpandviewreshapetransposepermute等,可以帮助我们灵活地操纵张量,写出的矩阵化(vectorized)代码。本文将重点聚焦于expand以及与之密切相关的“维度扩展”技巧和其底层原理。
2025-01-16 12:30:32
939
原创 探索两种位置编码的原理与实现:基于学习的与正弦编码的比较
在深度学习中,位置编码(Position Encoding, PE)是一种通过显式添加空间位置信息来增强模型理解能力的重要技术。本文将通过一个测试用例,结合公式与代码解析 基于学习的绝对位置编码 与 正弦位置编码 的工作原理。我们将从理论推导到实验测试,逐步揭示两种位置编码方式的核心逻辑及应用场景。
2024-12-19 11:59:37
1074
原创 深入理解 transforms.ToTensor()
在使用 PyTorch 进行图像处理和深度学习任务时,transforms.ToTensor() 是一个常用的工具。它可以将图像数据转换为 PyTorch 的张量格式,为后续的神经网络处理做好准备。尽管这个方法很常用,但很多人可能并不完全理解它具体做了哪些操作。本文将深入解析 transforms.ToTensor() 的具体作用和工作原理。
2024-07-30 15:26:10
1906
原创 如何在 PyCharm 中控制循环走到特定轮数
调试代码是软件开发过程中的重要环节,能够帮助我们发现和修复错误。在调试循环时,有时我们希望程序在循环达到特定次数时暂停执行,以便我们检查变量的状态。PyCharm 提供了强大的调试功能,通过设置条件断点可以轻松实现这一目标。
2024-07-30 14:48:39
616
原创 交叉熵损失与二元交叉熵损失:区别、联系及实现细节
在机器学习和深度学习中,交叉熵损失(Cross-Entropy Loss)和二元交叉熵损失(Binary Cross-Entropy Loss)是两种常用的损失函数,它们在分类任务中发挥着重要作用。本文将详细介绍这两种损失函数的区别和联系,并通过具体的代码示例来说明它们的实现细节。
2024-07-25 15:13:20
3305
原创 A Survey of Deep Graph Clustering: Taxonomy, Challenge, Application, and Open Resource(深度图聚类研究综述)
图聚类旨在将图中的节点划分为几个不同的簇,这是一个基础但具有挑战性的任务。得益于深度学习强大的表示能力,深度图聚类方法近年来取得了巨大的成功。然而,相应的综述论文相对稀缺,有必要对这一领域进行总结。基于这一动机,我们对深度图聚类进行了全面的综述。首先,我们介绍了该领域的形式化定义、评估和发展。其次,我们根据图类型、网络架构、学习范式和聚类方法四个不同标准,介绍了深度图聚类方法的分类法。第三,我们通过广泛的实验仔细分析了现有方法,并从图数据质量、稳定性、可扩展性、辨别能力和未知簇数量五个角度总结了挑战与机遇。
2024-07-16 17:38:05
1788
原创 Rethinking Graph Auto-Encoder Models for Attributed Graph Clustering(重新思考带属性图聚类的图自编码器模型)
分析:我们将基于GAE的聚类方法组织成两组,并为每种方法提供抽象公式。相应地,我们分析并形式化了与所研究公式相关的问题。然后,我们提出了一个新的概念设计,可以有利于控制FR和FD之间的权衡。从理论角度来看,我们证明了这种权衡的存在,并研究了两个重要方面,这两个方面将GAE模型与传统自编码器方法区分开来。具体来说,我们研究了在不同层次上进行聚类和重构对FR和FD的影响。此外,我们检查了图卷积操作对FD的影响。方法:首先,我们提出一个采样操作符Ξ,触发针对FR的保护机制。
2024-07-16 11:40:28
905
原创 深入理解变分图自编码器(VGAE):原理、特点、作用及实现
图神经网络(Graph Neural Networks, GNNs)在处理图结构数据方面展现出强大的能力。其中,变分图自编码器(Variational Graph Auto-Encoder, VGAE)是一种无监督学习模型,广泛用于图嵌入和图聚类任务。本文将深入探讨VGAE的原理、特点、作用及其具体实现。
2024-07-09 18:33:04
4041
原创 深入理解Deep Graph Infomax (DGI)
Deep Graph Infomax (DGI) 是一种用于无监督图嵌入学习的强大方法。通过最大化全局图表示和局部节点表示之间的互信息,DGI 能够从图结构数据中提取出有用的节点嵌入表示。本文将深入探讨DGI的特点和原理,分析其最适合和不太适合的使用场景,并提供具体的实现方式。
2024-07-09 16:22:11
2130
原创 注意力池化层:从概念到实现及应用
在现代深度学习模型中,注意力机制已经成为一个不可或缺的组件,特别是在处理自然语言和视觉数据时。多头注意力机制(Multihead Attention)是Transformer模型的核心,它通过多个注意力头来捕捉序列中不同部分之间的关系。然而,在多模态模型中,如何有效地将图像特征和文本特征结合起来一直是一个挑战。注意力池化层(Attention Pooling Layer)提供了一种有效的解决方案,通过将高维度的图像特征聚合成固定长度的表示,使其能够与文本特征进行有效融合。本文将从注意力池化层的作用、实现方式
2024-07-09 14:35:56
5176
1
原创 从头实现一个完整的Transformer模型
在深入研究Transformer架构时,我常感到现有教程缺少关键内容。Tensorflow或Pytorch的官方教程使用高层次API,理解底层实现需耗费大量时间。其他教程则过于简化,未涉及重要概念。因此,我决定自己编写Transformer,以确保理解这些概念并能应用于任何数据集。本文将系统地逐层实现一个Transformer。虽然不打算超越现有实现,本文旨在通过详细教程帮助读者更好地掌握Transformer理论和代码,实现对API的全面理解。
2024-06-20 17:59:33
1617
原创 Python实现mhd文件转dicom格式
我们在研究中计划手动标注MRI图像堆栈中的直肠癌mask,但由于耗时过多,决定基于开源模型结果进行修改。然而,现有的直肠癌分割模型仅接受和输出mhd格式文件,而在我们的数据集上效果欠佳,需要手动修改。然而,未找到可修改mhd文件的标注软件,因此需要将mhd文件转换为dicom格式。
2024-06-12 22:06:39
1277
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅