AI浩

分享人工智能知识，包括：计算机视觉、NLP以及机器学习等领域。注重基础与实践，尽最大的努力让每个初学者看懂学会。

原创 SAMV算法横空出世，分割、跟踪视频中任意运动目标

在计算机视觉领域，等问题表现不佳，而Meta的SAM模型虽在图像分割领域表现优异，却无法区分视频中的运动与静止对象。近日，一项名为的创新设计，在多个基准测试中性能，彻底改写了视频分割的技术格局！项目主页-https://motion-seg.github.io/代码链接-https://github.com/nnanhuang/SegAnyMo论文链接-https://arxiv.org/pdf/2503.22268。

2025-04-04 14:36:24 366

原创突破传统限制！全新端到端开放词汇多目标跟踪框架OVTR，开启视觉追踪新纪元

在TAO数据集上的实验表明，OVTR在TETA指标上优于现有方法，验证集和测试集上分别超过OVTrack 12.9%和12.4%。，仅能跟踪训练集中预定义的类别（如“人”“车”），但现实场景中常出现训练时未见过的新类别（如“临时路障”“新型无人机”），传统模型在此类情况下易失效。随着视觉-语言模型的进化，这类技术将推动机器真正“理解”动态世界，为智能系统赋予人类般的场景适应力。，通过端到端架构与视觉-语言模型结合，首次实现了无需后处理、支持动态类别扩展的开放词汇跟踪，成为该领域的重要突破。

2025-04-04 14:12:06 290

原创离线安装 Python 包及其全部依赖

最近服务器不让联网了，只能离线安装，我总结下面的教程，希望能帮助到同病相怜的人。确保下载时的操作系统、架构和 Python 版本与离线环境一致。通过以上步骤，可确保离线环境中完整安装包及其所有依赖。复杂依赖建议在虚拟环境中操作，避免污染全局环境。若需明确依赖版本，可生成。若环境无编译工具，使用。

2025-04-04 07:34:36 132

原创 python string 类型字符拼接 +=的缺点，以及取代方法

进行字符串拼接虽然语法简单，但在性能和代码维护方面存在明显缺陷。若拼接非字符串类型（如整数），需手动转换，否则抛出。，可显著提升代码效率和可维护性。：使用f-string或。拼接字符串，根据场景选择。在Python中，使用。或f-string。、f-string或。

2025-04-02 20:02:14 371

原创 MCP：AI时代的“万能插座”，开发者争相入局

• Function Calling是让AI“按按钮”，而MCP是让AI“开飞船”——不仅能触发单个功能，还能自主规划任务链条（如“分析数据→生成报告→邮件发送→Slack通知”）。举个栗子🌰：当你在Cursor中输入“帮我分析上周销售数据”，MCP客户端会通过服务器连接企业数据库，实时获取数据并生成可视化报告，全程无需人工干预。• MCP方案：只需开发一个MCP服务器，所有兼容模型即插即用，数据全程加密不泄露。• MCP生态：类似“应用商店”，开发者上传一次工具，所有模型均可调用。

2025-04-02 18:53:19 656

原创我的创作纪念日

（2020.04.02）：《C#调用托管C++类》聚焦跨语言编程痛点，为开发者提供实用解决方案，开启技术分享之路。：早期布局Transformer、Mamba等架构，近期聚焦动态卷积、频域学习等新兴方向。：以C#、C++等语言生态为核心，覆盖接口调用、内存管理等底层开发问题。：将状态空间模型（SSM）、博弈论等理论融入CV任务，拓展算法边界。

2025-04-01 19:00:00 425

原创 AI技术新突破：多模态与语音大模型重塑智能交互

本次技术突破标志着智能交互从单一功能向系统性解决方案演进。随着多模态融合、低时延响应等技术的普及，预计到2026年，相关技术将赋能超过80%的在线服务场景。体验官网：https://www.wenxiaoyan.com/

2025-03-31 19:25:10 813

原创 Transformers without Normalization

归一化层在现代神经网络中无处不在，并且长期以来一直被认为是必不可少的。本研究表明，不使用归一化的Transformer可以通过一种非常简单的技术达到相同或更好的性能。我们引入了动态双曲正切（Dynamic Tanh，简称DyT），这是一种逐元素运算DyT⁡xtanh⁡αxDyTxtanhαx，作为Transformer中归一化层的即插即用替代品。DyT的灵感来自于观察到Transformer中的层归一化常常产生类似双曲正切的S形输入输出映射。

2025-03-31 18:54:56 616

原创 aioredis.from_url函数详解

• 作用：选择 Redis 数据库编号（0~15），默认。• 作用：通过 Unix 域套接字连接（替代 TCP）• 作用：连接池最大连接数（默认由连接池实现决定）• 作用：单次 Redis 操作的读写超时时间。• 作用：复用外部连接池实例（避免重复创建）• 作用：自动将二进制响应转为字符串（默认。• 作用：Redis 认证密码，无密码留空。• 作用：TCP 连接建立的超时时间（秒）• 作用：强制使用单连接模式（禁用连接池）• 作用：Redis 服务器地址，默认。• 作用：启用 SSL/TLS 加密通信。

2025-03-28 09:48:01 851

原创 Redis 服务端主动回收配置

通过合理配置上述参数，可显著提升 Redis 的内存利用率与服务稳定性。：控制 LRU/LFU 近似算法的采样数量，数值越大淘汰精度越高，但 CPU 消耗增加。当内存占用超过该值时，触发主动回收机制。：建议设置为物理内存的 70%~80%，预留空间给系统进程及内存碎片。：默认 5，生产环境建议 10~20，在内存敏感场景可调至 50。：核心数据持久化+临时数据自动淘汰（如电商商品详情+购物车数据）。：平衡淘汰精度与性能，适合大多数读多写少的缓存场景。：默认启用，访问时检查键是否过期并删除。

2025-03-28 09:22:23 795

原创合合信息“大模型加速器2.0”：破解复杂文档解析难题，助力大模型更“靠谱”

合合信息“大模型加速器2.0”的发布，标志着大模型在复杂文档解析方面取得了重要进展。通过破解复杂版面和图表解析难题，该技术为大模型提供了更加可靠、可信的语料数据，助力其在各行业应用中更加“靠谱”。未来，随着技术的持续优化迭代，“大模型加速器2.0”有望在更多领域展现出更大的价值。

2025-03-27 05:15:00 3411

原创 2017年计算机真题

答：P : 天下雨；Q: 我开车出行。Q →¬ P。

2025-03-25 07:24:24 867

原创 2014年计算机真题

答：全域：全体整数 P(x) 表示 x 为正数； Q(x) 表示 x 可以开平方，则： ∀x(P(x)→Q(x))\forall x(P(x) \rightarrow Q(x))∀x(P(x)→Q(x))答：设 M(x)\mathrm{M}(\mathrm{x})M(x) ： x 为自然数； N(x, y): x 比 y 大，则原句可以化为以下形式： ¬∃x∀y(M(x)∧M(y)∧N(x,y))\neg \exists x \forall y(M(x) \wedge M(y)

2025-03-22 15:51:36 670

原创国考-网络串讲

•。

2025-03-21 07:19:56 1037

原创 MambaVision：一种Mamba-Transformer混合视觉骨干网络

我们提出了一种新型混合Mamba-Transformer主干网络，称为MambaVision，该网络专为视觉应用而设计。我们的核心贡献包括重新设计Mamba公式，以增强其对视觉特征的高效建模能力。此外，我们还对将视觉Transformer（ViT）与Mamba集成的可行性进行了全面的消融研究。我们的结果表明，在最终层添加几个自注意力模块可以显著提高捕捉长距离空间依赖关系的建模能力。基于我们的发现，我们引入了一系列具有分层架构的MambaVision模型，以满足各种设计标准。

2025-03-17 21:00:00 696

原创【重磅突破】NVIDIA新作MambaVision：颠覆视觉任务的超高效混合模型来了！

MambaVision的"混合动力"设计，犹如在AI引擎中同时安装燃油机和电动机——Mamba负责高效处理局部特征，Transformer专注全局推理，两者接力协作实现"1+1>2"的效果。就像给模型装上了"涡轮增压引擎"🚀，在ImageNet分类任务中刷新SOTA，目标检测、分割等下游任务全面开花！传统方案（如Vim、VMamba）试图通过双向扫描或交叉扫描改进，却陷入"缝缝补补"的怪圈。在AI视觉领域，Transformer和CNN的"神仙打架"持续多年，而NVIDIA实验室最新发布的。

2025-03-17 20:00:00 991

原创 2004年真题

1．有些人勤奋，但并非所有人都勤奋。答：设 M(x):x是人；R(x):x勤奋；N(x, y)：x与y不相同，则原语句可表示为：∃x∃y (N(x,y)∧M(x)∧M(y)∧R(x)∧¬R(y))2．不管白猫黑猫，抓住老鼠就是好猫。答：设G(x):x是猫；Y(x):x是白猫；H(x):x是黑猫；M(x):x能抓老鼠；N(x):x是好猫；则原语句可表示为：∀x(G(x)∧(Y(x)∨H(x))∧M(x) →N(x))

2025-03-17 07:35:47 815

原创【大模型部署实战】VLLM+OpenWebUI实现DeepSeek模型部署

vLLM（Very Large Language Model Serving）是由加州大学伯克利分校团队开发的高性能、低延迟大语言模型（LLM）推理和服务框架。其核心创新在于，通过将注意力键值（KV）缓存分页管理，显著提升显存利用率并降低碎片化问题，使吞吐量比传统框架（如Hugging Face Transformers）提升24倍。该框架支持和，能够高效处理8k+长上下文请求，并兼容OpenAI API接口，开发者可快速部署Hugging Face模型。

2025-03-16 12:54:31 1898

原创 [特殊字符] 突破性语音合成技术！Spark-TTS：用大模型打造你的专属AI语音助手 [特殊字符]️

你是否想过，未来的语音助手不仅能“说话”，还能根据你的需求调整音色、语速甚至情绪？近日，一项名为的突破性技术横空出世，它基于大语言模型（LLM），将文本转语音（TTS）技术推向了全新高度！今天，我们就来揭秘这项“会思考的语音合成黑科技”。

2025-03-16 07:51:57 418

原创 YOLOE：实时查看任何事物

目标检测和分割在计算机视觉应用中得到了广泛应用，然而，尽管YOLO系列等传统模型高效且准确，但它们受限于预定义的类别，阻碍了在开放场景中的适应性。最近的开放集方法利用文本提示、视觉提示或无提示范式来克服这一限制，但由于计算需求高或部署复杂，往往在性能和效率之间妥协。在本文中，我们介绍了YOLOE，它在一个高度高效的模型中集成了不同开放提示机制下的检测和分割，实现了实时感知任意物体的能力。对于文本提示，我们提出了可重参数化区域-文本对齐（RepRTA）策略。

2025-03-15 19:22:30 949

原创【高并发】Python线程池嵌套实战、问题分析与优化实践

线程资源消耗降低58%异常可追溯性提升系统吞吐量增加20%当遇到需要动态生成任务的场景时，建议优先考虑基于队列的任务分发机制，而非简单粗暴的线程池嵌套。对于更复杂的并发需求，可结合异步编程模型（如asyncio）或分布式任务框架来构建健壮的系统。

2025-03-10 07:11:31 1095

原创【高并发】高速将图片提交到flask、fastapi等主流服务框架

通过以上改造，您可以在不修改视频切片逻辑的前提下，将图片请求的吞吐量提升至原有单线程的10倍以上（具体取决于服务端响应速度）。若需进一步优化，可结合异步IO与连接池技术（如。高性能，高并发的读取图片，并将图片传输到服务器的应用场景很多，比如上传图片到网站，将图片提交到后台推理等。这篇文章实现一种多线程并发方式将图片提交到后台。通过线程池管理并发请求，避免手动创建/销毁线程的开销，且支持动态控制并发量。• 建议通过压力测试确定最佳值（如从10逐步增加）。• 记录失败请求的图片路径，便于后续补传。

2025-03-10 07:03:22 475

原创【Aioredis 实战总结】 aioredis 中 set 和 get方法的参数详解

通过合理组合参数，可实现灵活的缓存策略（如分布式锁、短期会话存储等）。(bool)：保留键原有的过期时间（需 Redis 6.0+）(int/None)：过期时间（毫秒），优先级高于。(int/None)：过期时间（秒），例如。(str/None)：指定解码方式（如。(str/bytes)：存储的值。，仅当键不存在时设置值（类似。），默认返回字节（bytes），仅当键存在时设置值（类似。(str)：要获取的键名。(str)：存储的键名。表示 60 秒后过期。

2025-03-06 04:15:00 286

原创【Aioredis实战总结】Aioredis简介

• 管道（Pipeline）、事务（Multi/Exec）、发布订阅（Pub/Sub）等高级功能。基于asyncio的非阻塞I/O模型，支持数万级并发请求。• 支持字符串、哈希、列表、集合等数据结构操作。• 连接池管理、哨兵模式、ACL权限控制等。• 提供完善的错误处理机制（如。：所有Redis命令需配合。：返回值默认是字节类型（如。调用，避免阻塞事件循环。高度一致，学习成本低。

2025-03-05 17:30:00 831

原创【Aioredis实战总结】如何修改aioredis的最大连接数。

命令或 Redis 监控工具（如 RedisInsight）实时观察连接数趋势。（约 21 亿），此时连接数仅受 Redis 服务端限制。：需根据服务器内存和资源情况合理设置，避免 OOM（内存溢出）。即使客户端允许更多连接，仍需确保 Redis 服务端的。：需要精准控制客户端连接数，防止服务端过载或资源浪费。参数，aioredis 默认会将最大连接数设置为。：高并发场景下需要动态扩展连接数，且服务端资源充足。或设置为较大值（如 5000），并配合服务端优化。决定了连接池允许创建的最大连接数。

2025-03-05 09:14:01 517

原创【Block总结】Histoformer，直方图transfomer，有效地捕捉长距离的空间特征|即插即用

综上所述，论文《Restoring Images in Adverse Weather Conditions via Histogram Transformer》提出了一种创新的图像恢复方法Histoformer，利用直方图自注意力机制和动态范围卷积等技术，显著提升了在恶劣天气条件下的图像恢复效果。通过实验验证，该方法在多个数据集上均表现出色，为未来的图像恢复研究提供了新的思路和方法。

2025-03-05 00:45:00 890

原创【Block总结】LWGA，轻量级分组注意力模块|即插即用

LWGANet作为一种新型的轻量级网络架构，展示了在遥感视觉任务中的广泛应用潜力。其创新的组注意力机制和高效的网络设计使其在准确性和计算效率上均表现优异。未来的研究可以进一步探索其在其他计算机视觉任务中的应用，以及如何进一步优化模型以适应更复杂的场景。

2025-03-04 06:49:52 1117

原创【Block总结】InceptionNeXt Block，超越ConvNeXt|即插即用

InceptionNeXt通过将Inception的设计理念与ConvNeXt的高效卷积操作相结合，提出了一种新的CNN架构。

2025-03-03 05:45:23 785

原创【Block总结】AssemFormer，将局部特征和全局特征结合起来，提升小目标检测能力|即插即用

SvANet通过引入创新的注意力机制和视觉变换器，成功解决了小型医学物体分割中的信息损失和压缩缺陷问题。其在多个医学图像数据集上的优异表现，证明了其在早期疾病检测和诊断中的潜在应用价值。SvANet的设计不仅提升了小型物体的分割精度，也为未来的医学图像分析提供了新的思路和方法。

2025-03-03 01:45:00 522

原创【Block总结】EMA，高效多尺度注意力模块|即插即用

总的来说，Efficient Multi-Scale Attention Module with Cross-Spatial Learning论文提出了一种创新的EMA模块，成功地在计算机视觉任务中实现了高效的特征表示。通过优化通道信息的保留和计算资源的使用，EMA模块为未来的深度学习模型设计提供了新的思路和方法。该模块的灵活性和高效性使其能够广泛应用于各种计算机视觉任务中，具有重要的研究和应用价值。

2025-03-03 01:00:00 1163

原创【Block总结】矩形自校准模块（RCM），自校准函数调整注意力区域|即插即用

该论文题为《Context-Guided Spatial Feature Reconstruction for Efficient Semantic Segmentation》，由Zhenliang Ni、Xinghao Chen、Yingjie Zhai、Yehui Tang和Yunhe Wang于2024年5月10日发表，主要探讨了一种新的语义分割框架CGRSeg，该框架基于上下文引导的空间特征重建，旨在提高语义分割的效率和准确性。

2025-03-02 17:21:40 677

原创【Block总结】EfficientViT中的多尺度线性注意力模块即插即用

LiteMLA类继承自nn.Module，是一个自定义的神经网络层。在初始化方法__init__中，定义了多个参数来控制模块的行为：和分别表示输入和输出通道数。heads和用于控制注意力头的数量和比例。dim是每个注意力头的维度。use_bias指定是否在卷积层中使用偏置项。norm指定归一化层的类型，可以是None或"bn2d"（二维批量归一化）。act_func指定激活函数的类型。是用于 q 和 k 的激活函数，默认为"relu"。scales。

2025-03-02 16:24:19 1060

原创【Block总结】SAFMN，空间自适应调制与局部特征增强的协同设计|即插即用

SAFMN通过空间自适应调制与局部特征增强的协同设计，在超分任务中实现了精度与效率的平衡。其轻量化特性使其在低功耗设备（如手机、嵌入式系统）中具有实际应用潜力。后续改进版本（如SAFMN++）进一步验证了该框架的可扩展性[7][17]。

2025-03-02 09:27:11 676

原创分形生成模型

模块化是计算机科学的基石，它将复杂功能抽象为原子构建模块。在本文中，我们通过将生成模型抽象为原子生成模块，引入了新一级的模块化。类似于数学中的分形，我们的方法通过递归调用原子生成模块，构建了一种新型生成模型，从而形成了自相似的分形架构，我们称之为分形生成模型。作为一个运行示例，我们使用自回归模型作为原子生成模块来实例化我们的分形框架，并在具有挑战性的逐像素图像生成任务上对其进行了检验，在似然估计和生成质量方面都表现出了强大的性能。我们希望这项工作能够开创生成建模的新范式，并为未来的研究提供肥沃的土壤。

2025-02-28 21:47:12 755

原创人工智能的无声基石：被低估的数据革命

DeepSeek团队在2024年推出的R1模型，仅用行业1/20的标注数据量，便实现超越GPT-4 Turbo的推理能力[6][4]。DeepSeek的崛起，用铁一般的事实揭示了数据革命的真正力量。但DeepSeek的实践颠覆了这一偏见：其标注团队包含31位专业标注人员，他们在医疗数据标注中需要掌握病理学知识，在金融数据清洗中需理解衍生品定价模型[2][10]。当我们重新审视DeepSeek成功背后的150位工程师与31位标注员时，便会理解：在AI的未来图景中，每个精准的标注都是点亮智能的火种。

2025-02-25 07:21:11 391

原创大模型江湖的“封神榜“：《哪吒2》角色映射下的AI众生相

大模型对应角色核心特性应用场景DeepSeek哪吒创新性、动态推理、跨领域知识融合创意解码、复杂问题求解GPT无量仙翁稳定性、广泛知识覆盖、依赖历史数据文本生成、知识问答安全大模型太乙真人动态平衡攻防、系统保护与重塑网络安全、数据保护文心一言敖丙情感化表达、学术严谨性、长期积累情感化创作、学术分析DeepSeek的锋芒毕露、GPT的守正出奇、安全模型的刚柔并济、文心一言的厚积薄发，共同勾勒出AI进化的多维图景。

2025-02-21 08:20:49 757

原创 DeepSeek测评：元宝满血版VS本地量化

比较两个JSON文件中的标注框，若两个框的坐标完全一致且标签相同，则视为重复，仅保留一个。可通过遍历所有框并使用集合或字典记录已存在的框来实现。

2025-02-20 20:38:45 703

原创 YOLOv12：以注意力为中心的实时目标检测器

长期以来，改进YOLO框架的网络架构一直是研究重点，但主要集中在基于CNN的改进上，尽管注意力机制已被证明在建模能力上具有显著优势。这是因为基于注意力的模型在速度上无法与基于CNN的模型相媲美。本文提出了一种以注意力为核心的YOLO框架——，它在保持与先前基于CNN模型相当速度的同时，充分利用了注意力机制的性能优势。YOLOv12在精度上超越了所有流行的实时目标检测器，同时保持了具有竞争力的速度。例如，YOLOv12-N在T4 GPU上以1.64毫秒的推理延迟实现了40.6%mAP。

2025-02-19 21:00:00 6255 2

原创基于暗通道先验的图像去雾算法解析与实现

何凯明团队于2009年提出的暗通道先验去雾算法《single image haze removal using dark channel prior》，通过统计发现：在无雾图像的局部区域中，至少存在一个颜色通道的像素值趋近于零。

2025-02-18 23:00:00 920 1

原创 python defaultdict用法

你还可以定义自定义的默认值函数，以便在访问缺失键时返回特定的值。# 自定义默认值函数# 创建 defaultdict，使用自定义函数# 访问一个不存在的键print(custom_dict['missing_key']) # 输出: Not Found是一个强大的工具，可以帮助我们简化字典操作，避免KeyError的出现。通过以上示例，我们可以看到它在分组、计数、嵌套字典和自定义默认值等场景中的应用。

2025-02-15 08:57:14 382

SparX实战：使用SparX实现图像分类任务

SparX是一种新提出的稀疏跨层连接机制，旨在提升视觉Mamba和Transformer网络的性能。该论文由香港大学的俞益洲教授及其研究团队撰写，并将在AAAI 2025会议上发表。论文的主要目标是解决现有视觉模型在跨层特征聚合方面的不足，尤其是在计算复杂度较高的Mamba模型中[5][6][7]。原文链接：https://blog.youkuaiyun.com/hhhhhhhhhhwwwwwwwwww/article/details/145376426

2025-01-29

DFFormer实战：使用DFFormer实现图像分类

## 论文信息 **标题**: FFT-based Dynamic Token Mixer for Vision **论文链接**: https://arxiv.org/pdf/2303.03932 ## 创新点本论文提出了一种新的令牌混合器，称为**动态滤波器（Dynamic Filter）**，旨在解决多头自注意力（MHSA）模型在处理高分辨率图像时的计算复杂度问题。传统的MHSA模型在输入特征图的像素数量增加时，其计算复杂度呈二次增长，导致处理速度缓慢。通过引入基于快速傅里叶变换（FFT）的动态滤波器，论文展示了在保持全局操作能力的同时，显著降低计算复杂度的可能性。链接：https://wanghao.blog.youkuaiyun.com/article/details/145368717?spm=1001.2014.3001.5502

2025-01-27

CrossFormer实战：使用CrossFormer实现图像分类任务

CrossFormer是一种新型的视觉Transformer架构，旨在通过引入跨尺度注意力机制来提升计算机视觉任务的性能。该模型特别关注不同尺度特征之间的交互，解决了现有视觉Transformer在处理多尺度特征时的不足。链接：https://blog.youkuaiyun.com/hhhhhhhhhhwwwwwwwwww/article/details/145055796?spm=1001.2014.3001.5501

2025-01-12

DilateFormer实战：使用DilateFormer实现图像分类任务

## 创新点 - **多尺度扩张注意力（MSDA）**：通过分析ViTs中全局注意力的斑块交互，发现注意力矩阵在浅层具有局部性和稀疏性。基于此，提出了MSDA，通过在周围稀疏选择的斑块中进行自注意力计算，同时捕获多尺度语义依赖。 - **滑动窗口扩张注意力（SWDA）**：作为MSDA的一部分，SWDA在局部邻域内执行自注意力，进一步利用感受野内的信息。 - **金字塔架构**：采用金字塔架构来发展DilateFormer模型，在浅层阶段堆叠MSDA以捕获低层信息，在深层阶段使用全局多头自注意力以建模高层信息。本文使用DilateFormer模型实现图像分类任务，模型选择dilateformer_tiny，在植物幼苗分类任务ACC达到了89%+。

2024-12-26

Yolo11s的Objects365预训练权重

Yolo11s的Objects365预训练权重，训练了10个epoch，可以用来做预训练模型。

2024-12-06

VOLO实战：使用VOLO实现图像分类任务

本文介绍了一种新颖的视觉前景器（VOLO）主干网络，通过提出前景注意力机制和构建两个阶段的架构，实现了在ImageNet分类任务上的卓越性能。同时，VOLO在语义分割任务上也表现出了出色的性能。VOLO的提出为视觉识别领域带来了新的突破和进展。本文使用VOLO模型实现图像分类任务，模型选择volo_d1，在植物幼苗分类任务ACC达到了85%+。

2024-11-25

DeBiFormer实战：使用DeBiFormer实现图像分类任务

本文介绍的DeBiFormer是一种专为图像分类和密集预测任务设计的新型分层视觉Transformer。通过提出可变形双级路由注意力（DBRA），优化了查询-键-值交互，自适应选择语义相关区域，实现了更高效和有意义的注意力。实验结果表明，DeBiFormer在多个计算机视觉任务上均表现出色，为设计灵活且语义感知的注意力机制提供了见解。本文使用DeBiFormer模型实现图像分类任务，模型选择debi_tiny，在植物幼苗分类任务ACC达到了82%+。原文链接：https://blog.youkuaiyun.com/hhhhhhhhhhwwwwwwwwww/article/details/142706712

2024-11-07

NextVit-Demo.zip

2024-10-04

EfficientFormer实战：使用EfficientFormerV2实现图像分类任务

EfficientFormerV2是一种通过重新思考ViT设计选择和引入细粒度联合搜索策略而开发出的新型移动视觉骨干网络。它结合了卷积和变换器的优势，通过一系列高效的设计改进和搜索方法，实现了在移动设备上既轻又快且保持高性能的目标。这一成果为在资源受限的硬件上有效部署视觉变换器模型提供了新的思路原文链接：https://blog.youkuaiyun.com/hhhhhhhhhhwwwwwwwwww/article/details/142367223

2024-09-19

GCViT实战：使用GCViT实现图像分类任务

GC ViT（全局上下文视觉转换器）是一种创新的深度学习架构，旨在提升计算机视觉任务中的参数和计算效率。它通过将全局上下文自注意力模块与标准的局部自注意力相结合，有效地建模长程和短程空间交互，同时避免了传统方法中的昂贵操作，如计算注意力掩码或移动局部窗口。GC ViT解决了Vision Transformer（ViT）中归纳偏差缺失的问题，并通过引入改进的融合倒置残差块来增强性能。在多个视觉任务（如图像分类、目标检测和语义分割）中，GC ViT均取得了最先进的结果。原文链接：https://blog.youkuaiyun.com/m0_47867638/article/details/141654892

2024-09-02

CAS-ViT实战：使用CAS-ViT实现图像分类任务

CAS-ViT（Convolutional Additive Self-attention Vision Transformer）通过一系列创新，成功实现了计算与效率的平衡。其核心在于提出了一种新颖的加性相似度函数和卷积加性标记混合器（Convolutional Additive Token Mixer, CATM），这一设计显著降低了计算开销。原文链接：https://blog.youkuaiyun.com/m0_47867638/article/details/141404169

2024-08-22

GroupMamba实战：使用GroupMamba实现图像分类任务

状态空间模型（SSM）的最新进展展示了在具有次二次复杂性的长距离依赖建模中的有效性能。GroupMamba解决了将基于SSM的模型扩展到计算机视觉领域的挑战，特别是大型模型尺寸的不稳定性和低效性。GroupMamba在ImageNet-1K的图像分类、MS-COCO的目标检测和实例分割以及ADE2OK的语义分割方面，相比现有方法取得了更优的性能。原文链接：https://blog.youkuaiyun.com/hhhhhhhhhhwwwwwwwwww/article/details/140775861

2024-07-31

EfficientMod实战：使用EfficientMod实现图像分类任务

论文提出了一种名为“高效调制（EfficientMod）”的新型设计，旨在提升视觉网络在准确性和效率之间的权衡。作者重新审视了现有的调制机制，该机制通过卷积上下文建模和特征投影层处理输入，并通过逐元素乘法和多层感知机（MLP）块融合特征。为了进一步提升效率，作者设计了EfficientMod块，作为他们网络的基本构建块。 EfficientMod的优势在于其能够利用调制机制的卓越表示能力，同时通过简化设计来减少计算冗余和延迟。与传统的自注意力机制相比，EfficientMod的计算复杂度与图像大小呈线性关系，而不是与标记数量呈立方关系，这使得它在处理大规模图像时更加高效。此外，与现有的高效卷积网络如FocalNet和VAN相比，EfficientMod块更为简单，但保留了它们的主要优点，如使用大核卷积块进行上下文建模和通过调制来增强特征表示。 https://blog.youkuaiyun.com/hhhhhhhhhhwwwwwwwwww/article/details/140520113

2024-07-20

RDNet实战：使用RDNet实现图像分类任务

论文提出的模型主要基于对传统DenseNet架构的改进和复兴，通过一系列创新设计，旨在提升模型性能并优化其计算效率，提出了RDNet模型。该模型的主要特点和改进点： ### 1. 强调并优化连接操作（Concatenation）论文首先强调了DenseNet中连接操作（Concatenation）的重要性，并通过广泛的实验验证了连接操作在性能上能够超越传统的加法快捷连接（Additive Shortcut）。这一发现促使研究者们重新审视并优化DenseNet的连接机制。

2024-07-09

YoloV8改进策略-注意力篇-Block改进-附结构图-自研基于xLSTM的注意力

本文使用Vision-LSTM的xLSTM改进YoloV8的Bottleneck结构，增加自研的注意力机制，取得了不错的得分。如果大家想发顶会，或者比较好的期刊，可以优先考虑！包含完整代码和PDF文章

2024-07-01

YoloV8摔倒检测完整代码

YoloV8摔倒检测完整代码，包含代码和数据集！打开就可以使用！搜集了多个数据集。

2024-06-24

StarNet实战：使用StarNet实现图像分类任务

论文主要集中在介绍和分析一种新兴的学习范式——星操作（Star Operation），这是一种通过元素级乘法融合不同子空间特征的方法，通过元素级乘法（类似于“星”形符号的乘法操作）将不同子空间的特征进行融合，从而在多个研究领域中展现出出色的性能和效率。星操作在自然语言处理（NLP）和计算机视觉（CV）等多个领域中都得到了成功应用。例如，在自然语言处理中，Monarch Mixer、Mamba、Hyena Hierarchy和GLU等模型都采用了星操作；在计算机视觉中，FocalNet、HorNet和VAN等模型也利用了星操作进行特征融合。原文链接：https://blog.youkuaiyun.com/hhhhhhhhhhwwwwwwwwww/article/details/139712515

2024-06-17

Vision-LSTM（ViL）实战：使用Vision-LSTM（ViL）实现图像分类任务

Vision-LSTM（ViL）架构的核心是xLSTM块。每个xLSTM块都包含一个输入门、一个遗忘门、一个输出门和一个内部记忆单元。与传统的LSTM相比，xLSTM引入了指数门控机制，使得模型能够更好地处理长序列数据。同时，xLSTM采用可并行化的矩阵内存结构，提高了模型的计算效率。原文链接：https://blog.youkuaiyun.com/hhhhhhhhhhwwwwwwwwww/article/details/139582259

2024-06-11

MobileNetV4实战：使用MobileNetV4实现图像分类任务

MobileNetV4，作为新一代移动设备神经网络架构，凭借其创新的通用倒置瓶颈UIB块和Mobile MQA注意力块，实现了计算效率和运行速度的显著提升。该架构通过精炼的神经架构搜索NAS方法，创建了多个卓越性能的移动设备模型。新型知识蒸馏技术进一步提高了模型准确性，而Mobile MQA块相较于传统多头注意力，在移动加速器上实现了显著的推理加速。原文链接：https://blog.youkuaiyun.com/hhhhhhhhhhwwwwwwwwww/article/details/139452661

2024-06-09

EfficientVMamba实战：使用 EfficientVMamba实现图像分类任务

作者研究了轻量级模型设计的新方法，通过引入视觉状态空间模型（SSM）以提高效率和性能。提出了一种名为EcientVMamba的高效模型变体，结合选择性扫描和有效跳跃采样，同时利用全局和局部表示特征。EcientVMamba在多种视觉任务中取得了具有竞争力的结果，并降低了计算复杂度。文章还探讨了SSMs在视觉任务中的应用，并指出现有轻量级模型在保持全局表示能力方面的挑战。本文使用EcientVMamba模型实现图像分类任务，模型选择最小的EcientVMamba_T，在植物幼苗分类任务ACC达到了93%+，达到了ViM的水平。。原文链接：https://blog.youkuaiyun.com/hhhhhhhhhhwwwwwwwwww/article/details/137253836

2024-04-02

TransNext-Demo.zip

2024-03-16

Hiera-MAE-Demo.zip

https://wanghao.blog.youkuaiyun.com/article/details/136443023?spm=1001.2014.3001.5502

2024-03-05

YoloV8改进策略：CoordConv给卷积加上坐标，从而使其具备了空间感知能力.zip

2024-02-21

MogaNet实战：使用MogaNet实现图像分类任务

作者多阶博弈论交互这一全新视角探索了现代卷积神经网络的表示能力。这种交互反映了不同尺度上下文中变量间的相互作用效果。提出了一种新的纯卷积神经网络架构族，称为MogaNet。MogaNet具有出色的可扩展性，在ImageNet和其他多种典型视觉基准测试中，与最先进的模型相比，其参数使用更高效，且具有竞争力的性能。具体来说，MogaNet在ImageNet上实现了80.0%和87.8%的Top-1准确率，分别使用了5.2M和181M参数，优于ParC-Net-S和ConvNeXt-L，同时节省了59%的浮点运算和17M的参数。源代码可在GitHub上(https://github.com/Westlake-AI/MogaNet)获取。文章链接：https://wanghao.blog.youkuaiyun.com/article/details/136102061?spm=1001.2014.3001.5502

2024-02-12

YoloV8改进-三元注意力，小参数大能力，即插即用，涨点自如

注意力机制在计算机视觉领域得到了广泛的研究和应用，利用构建通道或空间位置之间的依赖关系的能力，有效地应用于各种计算机视觉任务。本文研究了轻量级但有效的注意力机制，并提出了一种新的计算注意力权重的方法——三元组注意力，通过一个三分支结构捕捉跨维度交互。对于输入张量，三元组注意力通过旋转操作和残差变换建立跨维度的依赖关系，并以极小的计算开销编码了跨通道和空间信息。这种方法既简单又高效，可以轻松地插入经典的主干网络中作为附加模块。在各种具有挑战性的任务中，如ImageNet-1k图像分类和MSCOCO和PASCAL VOC数据集上的目标检测，证明了该方法的有效性。此外，通过可视化检查GradCAM和GradCAM++结果，提供了对三元组注意力性能的深入见解。本文方法的实证评估支持了在计算注意力权重时捕捉跨维度依赖关系的重要性的直觉。

2024-02-05

Vim实战：使用Vim实现图像分类任务

Vim作为一种高效的视觉模型，具有计算和内存效率高、处理高分辨率图像能力强等优点。这使得Vim成为下一代视觉基础模型的理想选择。本文使用Vim模型实现图像分类任务，模型选择最小的vim_tiny_patch16_224_bimambav2_final_pool_mean_abs_pos_embed_rope_also_residual_with_cls_token（这个方法的名字比较长。。。。。），在植物幼苗分类任务ACC达到了93%+。文章链接： https://wanghao.blog.youkuaiyun.com/article/details/135921108?spm=1001.2014.3001.5502

2024-01-30

FlashInternImage实战：使用FlashInternImage实现图像分类任务

将DCNv3替换为DCNv4创建的FlashInternImage模型可实现高达80%的速度提升和进一步性能改进，无需其他修改。DCNv4在速度和效率上的优势，结合其在各种视觉任务中的稳健性能，使其成为未来视觉模型的潜在基础构建块。文章链接： https://wanghao.blog.youkuaiyun.com/article/details/135873073?spm=1001.2014.3001.5502

2024-01-27

UniRepLKNet实战：使用UniRepLKNet实现图像分类任务

大核卷积神经网络（ConvNets）近年来受到广泛关注，但仍存在两个关键问题需要进一步研究。首先，目前的大型卷积神经网络架构大多遵循传统卷积神经网络或Transformer的设计原则，而大核ConvNets的架构设计仍未得到充分解决。其次，尽管Transformer已在多种模态中占据主导地位，但仍需研究卷积神经网络是否也具备超越视觉领域的强大通用感知能力。原文链接：https://blog.youkuaiyun.com/hhhhhhhhhhwwwwwwwwww/article/details/135512795

2024-01-13

TransXNet实战：使用TransXNet实现图像分类任务

在ImageNet-1K图像分类任务中，TransXNet-T相比Swin-T在top-1准确率上提高了0.3%，同时计算成本更低。此外，TransXNet-S和TransXNet-B展示了出色的模型扩展性，分别实现了83.8%和84.6%的top-1准确率，且计算成本合理。此外，我们的网络架构在各种密集预测任务中展现出了强大的泛化能力，优于其他先进的网络结构，且计算成本更低。总之，D-Mixer和TransXNet作为一种高效且具有强大泛化能力的网络结构，为计算机视觉领域提供了新的解决方案。这篇文章使用TransXNet完成植物分类任务，模型采用transxnet_t向大家展示如何使用TransXNet。transxnet_t在这个数据集上实现了96+%的ACC

2023-12-19

Hiera实战：使用Hiera实现图像分类任务

现代层次视觉变换器在追求监督分类表现时增加了几个特定于视觉的组件。这些组件虽然带来了有效的准确性和吸引人的FLOP计数，但增加的复杂性实际上使这些变换器比普通ViT更快。作者认为这种额外的体积是不必要的。通过使用强大的视觉预训练任务(MAE)进行预训练，可以从最先进的多阶段视觉变换器中去除所有花里胡哨的东西，同时不会丢失准确性。在此过程中，作者创建了Hiera，这是一种极其简单的层次视觉变换器，它比以前的模型更准确，同时在推理和训练过程中都明显更快。在各种任务上评估了Hiera对于图像和视频识别的表现。代码和模型可以在https://github.com/facebookresearch/hiera上获得。这篇文章使用Hiera完成植物分类任务，模型采用hiera_tiny_224向大家展示如何使用Hiera。原文链接：https://wanghao.blog.youkuaiyun.com/article/details/134642935

2023-12-07

RevCol实战：使用RevCol实现图像分类任务

可逆柱状结构（RevCol）是一种网络结构，它受到GLOM（Global Columnar Memory）的启发。RevCol由N个子网络（或称为列）组成，每个子网络的结构和功能都是相同的。这种结构可以有效地解决信息崩溃的问题，通过在前面的列中添加额外的监督，以保持特征和输入图像之间的互信息。此外，RevCol可以逐渐解耦语义和低级信息，从而提取和利用任务相关信息来进一步提高性能。在实现上，对于中间监督，采用了加权求和的方式将两个损失合并，对于所有变体的RevCol，通过实验确定将监督头添加到特定的列中。这篇文章使用RevCol完成植物分类任务，模型采用revcol_tiny向大家展示如何使用RevCol。revcol_tiny在这个数据集上实现了96+%的ACC，

2023-11-25

Sgformer实战：使用Sgformer实现图像分类任务

2023-09-11

nougat的权重文件

nougat权重文件

2023-09-05

定时任务库的详解与魅力应用：探索schedule的无尽可能性.pdf

定时任务库的详解与魅力应用：探索schedule的无尽可能性

2023-08-30

FastVIT实战：使用FastVIT实现图像分类

第一步执行makedata.py 创建训练集和验证集第二步执行train.py训练第三步执行export_model.py 导出模型第四步执行test.py 测试非常简单，适合初学者

2023-08-21

DERT：论文详细翻译

2023-08-15

VGGNet剪枝实战：使用VGGNet训练、稀疏训练、剪枝、微调等，剪枝出只有3M的模型

在BN层网络中加入稀疏因子，训练使得BN层稀疏化，对稀疏训练的后的模型中所有BN层权重进行统计排序，获取指定保留BN层数量即取得排序后权重阈值thres。遍历模型中的BN层权重，制作各层mask（权重>thres值为1，权重<thres值为0）。剪枝操作，根据各层的mask构建新模型结构（各层保留的通道数），获取BN层权重mask非零值的索引，非零索引对应的原始conv层、BN层、linear层各通道的权重、偏置等值赋值给新模型各层。加载剪枝后模型，进行fine-tune。原文链接：https://blog.youkuaiyun.com/hhhhhhhhhhwwwwwwwwww/article/details/132054977

2023-08-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人