- 博客(1472)
- 资源 (166)
- 收藏
- 关注
原创 SAMV算法横空出世,分割、跟踪视频中任意运动目标
在计算机视觉领域,等问题表现不佳,而Meta的SAM模型虽在图像分割领域表现优异,却无法区分视频中的运动与静止对象。近日,一项名为的创新设计,在多个基准测试中性能,彻底改写了视频分割的技术格局!项目主页-https://motion-seg.github.io/代码链接-https://github.com/nnanhuang/SegAnyMo论文链接-https://arxiv.org/pdf/2503.22268。
2025-04-04 14:36:24
366
原创 突破传统限制!全新端到端开放词汇多目标跟踪框架OVTR,开启视觉追踪新纪元
在TAO数据集上的实验表明,OVTR在TETA指标上优于现有方法,验证集和测试集上分别超过OVTrack 12.9%和12.4%。,仅能跟踪训练集中预定义的类别(如“人”“车”),但现实场景中常出现训练时未见过的新类别(如“临时路障”“新型无人机”),传统模型在此类情况下易失效。随着视觉-语言模型的进化,这类技术将推动机器真正“理解”动态世界,为智能系统赋予人类般的场景适应力。,通过端到端架构与视觉-语言模型结合,首次实现了无需后处理、支持动态类别扩展的开放词汇跟踪,成为该领域的重要突破。
2025-04-04 14:12:06
290
原创 离线安装 Python 包及其全部依赖
最近服务器不让联网了,只能离线安装,我总结下面的教程,希望能帮助到同病相怜的人。确保下载时的操作系统、架构和 Python 版本与离线环境一致。通过以上步骤,可确保离线环境中完整安装包及其所有依赖。复杂依赖建议在虚拟环境中操作,避免污染全局环境。若需明确依赖版本,可生成。若环境无编译工具,使用。
2025-04-04 07:34:36
132
原创 python string 类型字符拼接 +=的缺点,以及取代方法
进行字符串拼接虽然语法简单,但在性能和代码维护方面存在明显缺陷。若拼接非字符串类型(如整数),需手动转换,否则抛出。,可显著提升代码效率和可维护性。:使用f-string或。拼接字符串,根据场景选择。在Python中,使用。或f-string。、f-string或。
2025-04-02 20:02:14
371
原创 MCP:AI时代的“万能插座”,开发者争相入局
• Function Calling是让AI“按按钮”,而MCP是让AI“开飞船”——不仅能触发单个功能,还能自主规划任务链条(如“分析数据→生成报告→邮件发送→Slack通知”)。举个栗子🌰:当你在Cursor中输入“帮我分析上周销售数据”,MCP客户端会通过服务器连接企业数据库,实时获取数据并生成可视化报告,全程无需人工干预。• MCP方案:只需开发一个MCP服务器,所有兼容模型即插即用,数据全程加密不泄露。• MCP生态:类似“应用商店”,开发者上传一次工具,所有模型均可调用。
2025-04-02 18:53:19
656
原创 我的创作纪念日
(2020.04.02):《C#调用托管C++类》聚焦跨语言编程痛点,为开发者提供实用解决方案,开启技术分享之路。:早期布局Transformer、Mamba等架构,近期聚焦动态卷积、频域学习等新兴方向。:以C#、C++等语言生态为核心,覆盖接口调用、内存管理等底层开发问题。:将状态空间模型(SSM)、博弈论等理论融入CV任务,拓展算法边界。
2025-04-01 19:00:00
425
原创 AI技术新突破:多模态与语音大模型重塑智能交互
本次技术突破标志着智能交互从单一功能向系统性解决方案演进。随着多模态融合、低时延响应等技术的普及,预计到2026年,相关技术将赋能超过80%的在线服务场景。体验官网:https://www.wenxiaoyan.com/
2025-03-31 19:25:10
813
原创 Transformers without Normalization
归一化层在现代神经网络中无处不在,并且长期以来一直被认为是必不可少的。本研究表明,不使用归一化的Transformer可以通过一种非常简单的技术达到相同或更好的性能。我们引入了动态双曲正切(Dynamic Tanh,简称DyT),这是一种逐元素运算DyTxtanhαxDyTxtanhαx,作为Transformer中归一化层的即插即用替代品。DyT的灵感来自于观察到Transformer中的层归一化常常产生类似双曲正切的S形输入输出映射。
2025-03-31 18:54:56
616
原创 aioredis.from_url函数详解
• 作用:选择 Redis 数据库编号(0~15),默认。• 作用:通过 Unix 域套接字连接(替代 TCP)• 作用:连接池最大连接数(默认由连接池实现决定)• 作用:单次 Redis 操作的读写超时时间。• 作用:复用外部连接池实例(避免重复创建)• 作用:自动将二进制响应转为字符串(默认。• 作用:Redis 认证密码,无密码留空。• 作用:TCP 连接建立的超时时间(秒)• 作用:强制使用单连接模式(禁用连接池)• 作用:Redis 服务器地址,默认。• 作用:启用 SSL/TLS 加密通信。
2025-03-28 09:48:01
851
原创 Redis 服务端主动回收配置
通过合理配置上述参数,可显著提升 Redis 的内存利用率与服务稳定性。:控制 LRU/LFU 近似算法的采样数量,数值越大淘汰精度越高,但 CPU 消耗增加。当内存占用超过该值时,触发主动回收机制。:建议设置为物理内存的 70%~80%,预留空间给系统进程及内存碎片。:默认 5,生产环境建议 10~20,在内存敏感场景可调至 50。:核心数据持久化+临时数据自动淘汰(如电商商品详情+购物车数据)。:平衡淘汰精度与性能,适合大多数读多写少的缓存场景。:默认启用,访问时检查键是否过期并删除。
2025-03-28 09:22:23
795
原创 合合信息“大模型加速器2.0”:破解复杂文档解析难题,助力大模型更“靠谱”
合合信息“大模型加速器2.0”的发布,标志着大模型在复杂文档解析方面取得了重要进展。通过破解复杂版面和图表解析难题,该技术为大模型提供了更加可靠、可信的语料数据,助力其在各行业应用中更加“靠谱”。未来,随着技术的持续优化迭代,“大模型加速器2.0”有望在更多领域展现出更大的价值。
2025-03-27 05:15:00
3411
原创 2014年计算机真题
答:全域:全体整数 P(x) 表示 x 为正数; Q(x) 表示 x 可以开平方,则: ∀x(P(x)→Q(x))\forall x(P(x) \rightarrow Q(x))∀x(P(x)→Q(x))答:设 M(x)\mathrm{M}(\mathrm{x})M(x) : x 为自然数; N(x, y): x 比 y 大,则原句可以化为以下形式: ¬∃x∀y(M(x)∧M(y)∧N(x,y))\neg \exists x \forall y(M(x) \wedge M(y)
2025-03-22 15:51:36
670
原创 MambaVision:一种Mamba-Transformer混合视觉骨干网络
我们提出了一种新型混合Mamba-Transformer主干网络,称为MambaVision,该网络专为视觉应用而设计。我们的核心贡献包括重新设计Mamba公式,以增强其对视觉特征的高效建模能力。此外,我们还对将视觉Transformer(ViT)与Mamba集成的可行性进行了全面的消融研究。我们的结果表明,在最终层添加几个自注意力模块可以显著提高捕捉长距离空间依赖关系的建模能力。基于我们的发现,我们引入了一系列具有分层架构的MambaVision模型,以满足各种设计标准。
2025-03-17 21:00:00
696
原创 【重磅突破】NVIDIA新作MambaVision:颠覆视觉任务的超高效混合模型来了!
MambaVision的"混合动力"设计,犹如在AI引擎中同时安装燃油机和电动机——Mamba负责高效处理局部特征,Transformer专注全局推理,两者接力协作实现"1+1>2"的效果。就像给模型装上了"涡轮增压引擎"🚀,在ImageNet分类任务中刷新SOTA,目标检测、分割等下游任务全面开花!传统方案(如Vim、VMamba)试图通过双向扫描或交叉扫描改进,却陷入"缝缝补补"的怪圈。在AI视觉领域,Transformer和CNN的"神仙打架"持续多年,而NVIDIA实验室最新发布的。
2025-03-17 20:00:00
991
原创 2004年真题
1.有些人勤奋,但并非所有人都勤奋。答:设 M(x):x是人;R(x):x勤奋;N(x, y):x与y不相同,则原语句可表示为:∃x∃y (N(x,y)∧M(x)∧M(y)∧R(x)∧¬R(y))2.不管白猫黑猫,抓住老鼠就是好猫。答:设G(x):x是猫;Y(x):x是白猫;H(x):x是黑猫;M(x):x能抓老鼠;N(x):x是好猫;则原语句可表示为:∀x(G(x)∧(Y(x)∨H(x))∧M(x) →N(x))
2025-03-17 07:35:47
815
原创 【大模型部署实战】VLLM+OpenWebUI实现DeepSeek模型部署
vLLM(Very Large Language Model Serving)是由加州大学伯克利分校团队开发的高性能、低延迟大语言模型(LLM)推理和服务框架。其核心创新在于,通过将注意力键值(KV)缓存分页管理,显著提升显存利用率并降低碎片化问题,使吞吐量比传统框架(如Hugging Face Transformers)提升24倍。该框架支持和,能够高效处理8k+长上下文请求,并兼容OpenAI API接口,开发者可快速部署Hugging Face模型。
2025-03-16 12:54:31
1898
原创 [特殊字符] 突破性语音合成技术!Spark-TTS:用大模型打造你的专属AI语音助手 [特殊字符]️
你是否想过,未来的语音助手不仅能“说话”,还能根据你的需求调整音色、语速甚至情绪?近日,一项名为的突破性技术横空出世,它基于大语言模型(LLM),将文本转语音(TTS)技术推向了全新高度!今天,我们就来揭秘这项“会思考的语音合成黑科技”。
2025-03-16 07:51:57
418
原创 YOLOE:实时查看任何事物
目标检测和分割在计算机视觉应用中得到了广泛应用,然而,尽管YOLO系列等传统模型高效且准确,但它们受限于预定义的类别,阻碍了在开放场景中的适应性。最近的开放集方法利用文本提示、视觉提示或无提示范式来克服这一限制,但由于计算需求高或部署复杂,往往在性能和效率之间妥协。在本文中,我们介绍了YOLOE,它在一个高度高效的模型中集成了不同开放提示机制下的检测和分割,实现了实时感知任意物体的能力。对于文本提示,我们提出了可重参数化区域-文本对齐(RepRTA)策略。
2025-03-15 19:22:30
949
原创 【高并发】Python线程池嵌套实战、问题分析与优化实践
线程资源消耗降低58%异常可追溯性提升系统吞吐量增加20%当遇到需要动态生成任务的场景时,建议优先考虑基于队列的任务分发机制,而非简单粗暴的线程池嵌套。对于更复杂的并发需求,可结合异步编程模型(如asyncio)或分布式任务框架来构建健壮的系统。
2025-03-10 07:11:31
1095
原创 【高并发】高速将图片提交到flask、fastapi等主流服务框架
通过以上改造,您可以在不修改视频切片逻辑的前提下,将图片请求的吞吐量提升至原有单线程的10倍以上(具体取决于服务端响应速度)。若需进一步优化,可结合异步IO与连接池技术(如。高性能,高并发的读取图片,并将图片传输到服务器的应用场景很多,比如上传图片到网站,将图片提交到后台推理等。这篇文章实现一种多线程并发方式将图片提交到后台。通过线程池管理并发请求,避免手动创建/销毁线程的开销,且支持动态控制并发量。• 建议通过压力测试确定最佳值(如从10逐步增加)。• 记录失败请求的图片路径,便于后续补传。
2025-03-10 07:03:22
475
原创 【Aioredis 实战总结】 aioredis 中 set 和 get方法的参数详解
通过合理组合参数,可实现灵活的缓存策略(如分布式锁、短期会话存储等)。(bool):保留键原有的过期时间(需 Redis 6.0+)(int/None):过期时间(毫秒),优先级高于。(int/None):过期时间(秒),例如。(str/None):指定解码方式(如。(str/bytes):存储的值。,仅当键不存在时设置值(类似。),默认返回字节(bytes),仅当键存在时设置值(类似。(str):要获取的键名。(str):存储的键名。表示 60 秒后过期。
2025-03-06 04:15:00
286
原创 【Aioredis实战总结】Aioredis简介
• 管道(Pipeline)、事务(Multi/Exec)、发布订阅(Pub/Sub)等高级功能。基于asyncio的非阻塞I/O模型,支持数万级并发请求。• 支持字符串、哈希、列表、集合等数据结构操作。• 连接池管理、哨兵模式、ACL权限控制等。• 提供完善的错误处理机制(如。:所有Redis命令需配合。:返回值默认是字节类型(如。调用,避免阻塞事件循环。高度一致,学习成本低。
2025-03-05 17:30:00
831
原创 【Aioredis实战总结】如何修改aioredis的最大连接数。
命令或 Redis 监控工具(如 RedisInsight)实时观察连接数趋势。(约 21 亿),此时连接数仅受 Redis 服务端限制。:需根据服务器内存和资源情况合理设置,避免 OOM(内存溢出)。即使客户端允许更多连接,仍需确保 Redis 服务端的。:需要精准控制客户端连接数,防止服务端过载或资源浪费。参数,aioredis 默认会将最大连接数设置为。:高并发场景下需要动态扩展连接数,且服务端资源充足。或设置为较大值(如 5000),并配合服务端优化。决定了连接池允许创建的最大连接数。
2025-03-05 09:14:01
517
原创 【Block总结】Histoformer,直方图transfomer,有效地捕捉长距离的空间特征|即插即用
综上所述,论文《Restoring Images in Adverse Weather Conditions via Histogram Transformer》提出了一种创新的图像恢复方法Histoformer,利用直方图自注意力机制和动态范围卷积等技术,显著提升了在恶劣天气条件下的图像恢复效果。通过实验验证,该方法在多个数据集上均表现出色,为未来的图像恢复研究提供了新的思路和方法。
2025-03-05 00:45:00
890
原创 【Block总结】LWGA,轻量级分组注意力模块|即插即用
LWGANet作为一种新型的轻量级网络架构,展示了在遥感视觉任务中的广泛应用潜力。其创新的组注意力机制和高效的网络设计使其在准确性和计算效率上均表现优异。未来的研究可以进一步探索其在其他计算机视觉任务中的应用,以及如何进一步优化模型以适应更复杂的场景。
2025-03-04 06:49:52
1117
原创 【Block总结】InceptionNeXt Block,超越ConvNeXt|即插即用
InceptionNeXt通过将Inception的设计理念与ConvNeXt的高效卷积操作相结合,提出了一种新的CNN架构。
2025-03-03 05:45:23
785
原创 【Block总结】AssemFormer,将局部特征和全局特征结合起来,提升小目标检测能力|即插即用
SvANet通过引入创新的注意力机制和视觉变换器,成功解决了小型医学物体分割中的信息损失和压缩缺陷问题。其在多个医学图像数据集上的优异表现,证明了其在早期疾病检测和诊断中的潜在应用价值。SvANet的设计不仅提升了小型物体的分割精度,也为未来的医学图像分析提供了新的思路和方法。
2025-03-03 01:45:00
522
原创 【Block总结】EMA,高效多尺度注意力模块|即插即用
总的来说,Efficient Multi-Scale Attention Module with Cross-Spatial Learning论文提出了一种创新的EMA模块,成功地在计算机视觉任务中实现了高效的特征表示。通过优化通道信息的保留和计算资源的使用,EMA模块为未来的深度学习模型设计提供了新的思路和方法。该模块的灵活性和高效性使其能够广泛应用于各种计算机视觉任务中,具有重要的研究和应用价值。
2025-03-03 01:00:00
1163
原创 【Block总结】矩形自校准模块(RCM),自校准函数调整注意力区域|即插即用
该论文题为《Context-Guided Spatial Feature Reconstruction for Efficient Semantic Segmentation》,由Zhenliang Ni、Xinghao Chen、Yingjie Zhai、Yehui Tang和Yunhe Wang于2024年5月10日发表,主要探讨了一种新的语义分割框架CGRSeg,该框架基于上下文引导的空间特征重建,旨在提高语义分割的效率和准确性。
2025-03-02 17:21:40
677
原创 【Block总结】EfficientViT中的多尺度线性注意力模块即插即用
LiteMLA类继承自nn.Module,是一个自定义的神经网络层。在初始化方法__init__中,定义了多个参数来控制模块的行为:和分别表示输入和输出通道数。heads和用于控制注意力头的数量和比例。dim是每个注意力头的维度。use_bias指定是否在卷积层中使用偏置项。norm指定归一化层的类型,可以是None或"bn2d"(二维批量归一化)。act_func指定激活函数的类型。是用于 q 和 k 的激活函数,默认为"relu"。scales。
2025-03-02 16:24:19
1060
原创 【Block总结】SAFMN,空间自适应调制与局部特征增强的协同设计|即插即用
SAFMN通过空间自适应调制与局部特征增强的协同设计,在超分任务中实现了精度与效率的平衡。其轻量化特性使其在低功耗设备(如手机、嵌入式系统)中具有实际应用潜力。后续改进版本(如SAFMN++)进一步验证了该框架的可扩展性[7][17]。
2025-03-02 09:27:11
676
原创 分形生成模型
模块化是计算机科学的基石,它将复杂功能抽象为原子构建模块。在本文中,我们通过将生成模型抽象为原子生成模块,引入了新一级的模块化。类似于数学中的分形,我们的方法通过递归调用原子生成模块,构建了一种新型生成模型,从而形成了自相似的分形架构,我们称之为分形生成模型。作为一个运行示例,我们使用自回归模型作为原子生成模块来实例化我们的分形框架,并在具有挑战性的逐像素图像生成任务上对其进行了检验,在似然估计和生成质量方面都表现出了强大的性能。我们希望这项工作能够开创生成建模的新范式,并为未来的研究提供肥沃的土壤。
2025-02-28 21:47:12
755
原创 人工智能的无声基石:被低估的数据革命
DeepSeek团队在2024年推出的R1模型,仅用行业1/20的标注数据量,便实现超越GPT-4 Turbo的推理能力[6][4]。DeepSeek的崛起,用铁一般的事实揭示了数据革命的真正力量。但DeepSeek的实践颠覆了这一偏见:其标注团队包含31位专业标注人员,他们在医疗数据标注中需要掌握病理学知识,在金融数据清洗中需理解衍生品定价模型[2][10]。当我们重新审视DeepSeek成功背后的150位工程师与31位标注员时,便会理解:在AI的未来图景中,每个精准的标注都是点亮智能的火种。
2025-02-25 07:21:11
391
原创 大模型江湖的“封神榜“:《哪吒2》角色映射下的AI众生相
大模型对应角色核心特性应用场景DeepSeek哪吒创新性、动态推理、跨领域知识融合创意解码、复杂问题求解GPT无量仙翁稳定性、广泛知识覆盖、依赖历史数据文本生成、知识问答安全大模型太乙真人动态平衡攻防、系统保护与重塑网络安全、数据保护文心一言敖丙情感化表达、学术严谨性、长期积累情感化创作、学术分析DeepSeek的锋芒毕露、GPT的守正出奇、安全模型的刚柔并济、文心一言的厚积薄发,共同勾勒出AI进化的多维图景。
2025-02-21 08:20:49
757
原创 DeepSeek测评:元宝满血版VS本地量化
比较两个JSON文件中的标注框,若两个框的坐标完全一致且标签相同,则视为重复,仅保留一个。可通过遍历所有框并使用集合或字典记录已存在的框来实现。
2025-02-20 20:38:45
703
原创 YOLOv12:以注意力为中心的实时目标检测器
长期以来,改进YOLO框架的网络架构一直是研究重点,但主要集中在基于CNN的改进上,尽管注意力机制已被证明在建模能力上具有显著优势。这是因为基于注意力的模型在速度上无法与基于CNN的模型相媲美。本文提出了一种以注意力为核心的YOLO框架——,它在保持与先前基于CNN模型相当速度的同时,充分利用了注意力机制的性能优势。YOLOv12在精度上超越了所有流行的实时目标检测器,同时保持了具有竞争力的速度。例如,YOLOv12-N在T4 GPU上以1.64毫秒的推理延迟实现了40.6%mAP。
2025-02-19 21:00:00
6255
2
原创 基于暗通道先验的图像去雾算法解析与实现
何凯明团队于2009年提出的暗通道先验去雾算法《single image haze removal using dark channel prior》,通过统计发现:在无雾图像的局部区域中,至少存在一个颜色通道的像素值趋近于零。
2025-02-18 23:00:00
920
1
原创 python defaultdict用法
你还可以定义自定义的默认值函数,以便在访问缺失键时返回特定的值。# 自定义默认值函数# 创建 defaultdict,使用自定义函数# 访问一个不存在的键print(custom_dict['missing_key']) # 输出: Not Found是一个强大的工具,可以帮助我们简化字典操作,避免KeyError的出现。通过以上示例,我们可以看到它在分组、计数、嵌套字典和自定义默认值等场景中的应用。
2025-02-15 08:57:14
382
SparX实战:使用SparX实现图像分类任务
2025-01-29
DFFormer实战:使用DFFormer实现图像分类
2025-01-27
CrossFormer实战:使用CrossFormer实现图像分类任务
2025-01-12
DilateFormer实战:使用DilateFormer实现图像分类任务
2024-12-26
VOLO实战:使用VOLO实现图像分类任务
2024-11-25
DeBiFormer实战:使用DeBiFormer实现图像分类任务
2024-11-07
EfficientFormer实战:使用EfficientFormerV2实现图像分类任务
2024-09-19
GCViT实战:使用GCViT实现图像分类任务
2024-09-02
CAS-ViT实战:使用CAS-ViT实现图像分类任务
2024-08-22
GroupMamba实战:使用GroupMamba实现图像分类任务
2024-07-31
EfficientMod实战:使用EfficientMod实现图像分类任务
2024-07-20
RDNet实战:使用RDNet实现图像分类任务
2024-07-09
YoloV8改进策略-注意力篇-Block改进-附结构图-自研基于xLSTM的注意力
2024-07-01
StarNet实战:使用StarNet实现图像分类任务
2024-06-17
Vision-LSTM(ViL)实战:使用Vision-LSTM(ViL)实现图像分类任务
2024-06-11
MobileNetV4实战:使用MobileNetV4实现图像分类任务
2024-06-09
EfficientVMamba实战:使用 EfficientVMamba实现图像分类任务
2024-04-02
Hiera-MAE-Demo.zip
2024-03-05
YoloV8改进策略:CoordConv给卷积加上坐标,从而使其具备了空间感知能力.zip
2024-02-21
MogaNet实战:使用MogaNet实现图像分类任务
2024-02-12
YoloV8改进-三元注意力,小参数大能力,即插即用,涨点自如
2024-02-05
Vim实战:使用Vim实现图像分类任务
2024-01-30
FlashInternImage实战:使用FlashInternImage实现图像分类任务
2024-01-27
UniRepLKNet实战:使用UniRepLKNet实现图像分类任务
2024-01-13
TransXNet实战:使用TransXNet实现图像分类任务
2023-12-19
Hiera实战:使用Hiera实现图像分类任务
2023-12-07
RevCol实战:使用RevCol实现图像分类任务
2023-11-25
FastVIT实战:使用FastVIT实现图像分类
2023-08-21
VGGNet剪枝实战:使用VGGNet训练、稀疏训练、剪枝、微调等,剪枝出只有3M的模型
2023-08-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人