
AI算法
文章平均质量分 77
要养家的程序猿
士不可以不弘毅 任重而道远
展开
-
阿里QWQ-32B环境搭建&推理测试
当大部分人玩不起 671B 的满血,32B 的 QwQ 已让全球开发者陷入狂欢。DeepSeek的狂欢也该静一静了,我一直觉得阿里开源的大模型是很业界良心的。实验表明,少量步骤的通用任务训练,即可提升 QwQ 的通用能力,且数学、编程性能没有显著下降。值得注意的是,QwQ 不只是一个推理模型,还集成了先进的 Agent相关能力,如 Function call。QwQ 则再一次证明了这一结论,有下图为证:不过,与传统方法不同的是,QwQ 采用了多阶段强化训练策略。第一阶段,针对数学、编程任务,进行强化学习。原创 2025-04-07 09:56:39 · 333 阅读 · 0 评论 -
通义万相环境搭建&推理测试
值得关注的是,其轻量化版本万相 1.3B 不仅性能超越同量级开源模型,甚至逼近部分闭源产品,同时实现了 8.2GB 显存的消费级显卡部署能力,为二次开发和学术研究提供了重要支撑。2月25日,阿里云旗下视觉生成基座模型万相 2.1(Wan)重磅开源,此次开源采用最宽松的 Apache2.0 协议,14B 和 1.3B 两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务。作为长期关注大模型,多模态的blogger,我还是不能错误,我一直认为阿里开源的大模型是业界良心。OK,让我们开始吧。原创 2025-03-31 10:18:31 · 704 阅读 · 0 评论 -
VLM-R1环境搭建&推理测试
(2)泛化能力卓越,在领域外测试数据上,传统 SFT 模型性能随训练步数增加而下滑,R1 模型却能持续提升,表明 R1 方法让模型真正理解视觉内容而非简单记忆。这个项目的团队在 Qwen2.5-VL 的基础上,同时对比了 R1 和传统的 SFT 方法。(3)上手简单,VLM-R1 项目团队提供完整训练和评估流程,四步即可开始训练,对开发者友好。(1)稳定性强,R1 方法在复杂场景下也能保持高性能,对实际应用意义重大。前文也写了DeepSeek R1模型的安装测试,感兴趣的童鞋移步(原创 2025-03-25 15:57:05 · 473 阅读 · 0 评论 -
Qwen2-VL华为卡300i duo环境搭建&推理测试
多模态华为卡的适配倒是一直没有出过相关的博客。刚好遇到需要Qwen2-VL的配置,安装。通过watch -n 1 npu-smi info命令查看当前的npu程序,看看是否加载顺利。前面也写过华为300i duo DeepSeek的环境搭建&推理测试,感兴趣的同事请移步({"type": "text", "text": "介绍图中的内容."}3、修改ip和端口号,检查httpsEnabled是否是false。2、用curl命令本地访问大模型,看是否有返回结果。4、配置大模型路径、name和分配对应的芯片。原创 2025-03-17 11:56:57 · 862 阅读 · 0 评论 -
DeepSeek-R1华为卡300i Duo环境搭建&推理测试
在N卡上的操作,应该已经展示的比较全面了。今年过年期间,华为很快就宣布适配DeepSeek-R1,刚好,手上有几张华为300i Duo卡,有资源部署。1、修改模型里的config.json比如模型路径为:/home/aicc/modelscope/deepseek/distill-32b。通过watch -n 1 npu-smi info命令查看当前的npu程序,看看是否加载顺利。前文已经写了不少DeepSeek相关的文章,感兴趣的童鞋可以移步(4、配置大模型路径、name和分配对应的芯片。原创 2025-03-10 11:54:09 · 1285 阅读 · 0 评论 -
YOLOv12环境搭建&推理测试
突破传统 YOLO 依赖 CNN 架构的局限,以注意力机制为核心设计 YOLOv12 框架,发挥注意力机制强大的建模能力,打破 CNN 模型在 YOLO 系列中的主导地位。),最近如火如荼的deepseek,我也写了几篇博客,但作为一个CV出身的程序猿,上篇文章也说到,也许追YOLO也成为一个CVer的信仰了吧。提出简单有效的区域注意力模块(A2),通过简单的特征图划分方式,在减少注意力计算复杂度的同时,保持较大的感受野,显著提升计算速度,且对性能影响较小。(2)高效的区域注意力模块。原创 2025-03-03 09:28:20 · 471 阅读 · 0 评论 -
Sa2VA环境搭建&推理测试
Sa2VA 模型通过结合基础视频分割模型 SAM-2 和高级视觉语言模型 LLaVA,将文本、图像和视频统一到共享的 LLM 标记空间中。这种架构设计使得 Sa2VA 能够在最少指令微调的情况下,执行多种任务,包括图像对话、视频对话、图像指称分割、视频指称分割和基于单次指令调整的字幕生成。Sa2VA模型通过结合SAM-2和LLaVA,将文本、图像和视频统一到共享的LLM标记空间中,能够在少量指令微调下执行多种任务,如图像/视频对话、指称分割和字幕生成。OK,那就让我们开始吧。原创 2025-02-24 14:50:35 · 441 阅读 · 0 评论 -
基于Ollama的win10环境下DeepSeek安装测试
必须可以的,安排,为了大家更方便的操作,这次直接只用win10系统。1、查看电脑配置(ps:大家应该看了很多类似视频教程,绝口不提安装电脑的配置,这点我也是很好奇),电脑右击属性查看CPU、内存信息。查看本地显卡配置,cmd打开,输入nvidia-smi,具体显卡驱动、cuda安装在此就不赘述了。2、安装Ollama,这是运行大模型的一个基座架构,支持windows、mac、linux等平台。1、点击Ollama,安装DeepSeek,跑个7b模型试试。模型下载完成,即可以使用,那我们再来看看显存大小。原创 2025-02-17 09:14:35 · 283 阅读 · 0 评论 -
DeepSeek-Janus-Pro环境搭建&推理测试
这像给Janus-Pro一个文字描述,让它画出一幅画,结果它画得比其他模型更准确、更细致,说明它在根据文字描述生成图像方面也很出色。对了,DALL-E 3是OpenAI开发的文生图模型,而 Stable Diffusion 3 Medium不用说了,众所周知,专注于生成高质量图片,特别在中等分辨率下表现出色。首先,多模态理解任务上:Janus-Pro在MMBench基准测试中得分79.2,超过了其他一些知名的模型,比如TokenFlow-XL(68.9)和MetaMorph(75.2)。原创 2025-02-10 09:17:34 · 890 阅读 · 0 评论 -
DeepSeek-R1环境搭建&推理测试
根据DeepSeek官方公布的数据,DeepSeek-R1在AIME2024上获得了79.8%的成绩,略高于OpenAI-o1-1217的79.2%。对于工程相关的任务,DeepSeek-R1的表现略优于OpenAI-o1-1217。1月20日,中国AI公司深度求索(DeepSeek)发布的DeepSeek-R1模型,凭借其独特的强化学习(RL)训练方法,首次让AI展现出类人的“顿悟时刻”——在解决复杂问题时,模型会突然停下思考,自主修正推理路径,甚至用自然语言标注“等等,这一步可能有误”。原创 2025-01-30 21:21:12 · 1232 阅读 · 0 评论 -
DINO-X环境搭建&推理测试
发布了DINO系列最新的DINO-X通用视觉大模型,拥有真正的物体级别理解能力,具有最佳开放世界物体检测性能的统一的以物体为中心的视觉模型。还扩展了 DINO-X 以集成多个感知头,从而同时支持多个物体感知和理解任务,包括检测、分割、姿势估计、物体字幕、基于物体的 QA 等。进一步开发了通用物体提示,以实现无提示的任何物体检测和识别。DINO-X在物体检测领域树立新标杆,无需任何提示,即可识别几乎所有物体,并给出其类别,包括罕见的长尾物体(出现频率低但种类繁多的物体)。(2)最强的开放集检测性能。原创 2025-01-06 22:52:21 · 676 阅读 · 1 评论 -
OmniVision环境搭建&推理测试
在Apple最新M4 Pro处理器的MacBook上,它能够以不到2秒的惊人速度,生成一张1046×1568像素图像的语言描述。这一领域最新的突破之一是OmniVision-968M,这是一个紧凑且高效的视觉-语言模型,有望彻底改变边缘AI应用。Nexa AI的愿景是打造先进的端侧AI模型,让AI技术不再局限于云端,而是能够直接在本地设备上运行。之前关注这一块的内容比较少,感觉大模型这一块,最终还是要和之前AI模型一样的,云端+边端,两条腿走路,OK,那就让我们开始吧。1、安装python包。原创 2024-12-30 09:36:38 · 872 阅读 · 0 评论 -
Dify环境搭建&推理测试
as Service, BaaS)和LLMOps的理念,为开发者提供了一个用户友好的界面和一系列强大的工具,使他们能够快速搭建生产级的AI应用。2、模块化设计:Dify采用模块化的设计,每个模块都有清晰的功能和接口,开发者可以根据需求选择性地使用这些模块来构建自己的AI应用。3、丰富的功能组件:平台提供了包括AI工作流、RAG管道、Agent、模型管理等丰富功能组件,帮助开发者从原型到生产的全过程。4、支持多种大语言模型:Dify已支持主流的模型,开发者能够根据自己的需求选择最适合的模型来构建AI应用。原创 2024-12-23 09:23:28 · 655 阅读 · 0 评论 -
Xinference环境搭建&推理测试
(4)接口调用,灵活多样:提供多种使用模型的接口,包括 OpenAI 兼容的 RESTful API(包括 Function Calling),RPC,命令行,web UI 等等。(2)前沿模型,应有尽有:框架内置众多中英文的前沿大语言模型,包括 baichuan,chatglm2 等,一键即可体验!(5)集群计算,分布协同: 支持分布式部署,通过内置的资源调度器,让不同大小的模型按需调度到不同机器,充分使用集群资源。(1)模型推理,轻而易举:大语言模型,语音识别模型,多模态模型的部署流程被大大简化。原创 2024-12-16 09:47:29 · 491 阅读 · 0 评论 -
上海AI Lab Mono-InternVL环境搭建&推理测试
在Mono-InternVL中,一组视觉专家通过专家混合机制嵌入到预训练的语言模型中。通过冻结语言模型的语言部分参数,Mono-InternVL确保了视觉能力的优化,同时不会影响预训练的语言知识。与非原生模型相比,该模型首个单词延迟最多降低67%,在多个评测数据集上均达到了SOTA水准。Mono-InternVL在性能上优于当前最先进的多模态语言模型Mini-InternVL-2B-1.5,并且显著超越了其他原生多模态模型,如上方的。同时,它的部署效率也得到了提升,首个单词的延迟降低了最多达67%。原创 2024-11-18 10:27:13 · 556 阅读 · 0 评论 -
智谱AI Emu3环境搭建&推理测试
该模型只基于下一个token预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。Emu3在图像生成、视频生成、视觉语言理解等任务中超过了SDXL 、LLaVA、OpenSora等知名开源模型,但是无需扩散模型、CLIP视觉编码器、预训练的LLM等技术,只需要预测下一个token。与此同时,该模型输出的离散token可以被转换为文本、图像和视频,为Any-to-Any的任务提供了更加统一的研究范式。而在此前,社区缺少这样的技术和模型。OK,显存不够 ,那就这样子吧。原创 2024-11-04 09:07:21 · 419 阅读 · 0 评论 -
CogView3环境搭建&推理测试
CogView-3-Plus 在 CogView3(ECCV'24) 的基础上引入了最新的 DiT 框架,以实现整体性能的进一步提升。在实际效果上,CogView3 在人工评估中比目前最先进的开源文本到图像扩散模型 SDXL 高出 77.0%,同时只需要 SDXL 大约 1/10 的推理时间。盘一下,发现少了文生图的模型,刚好CogView3发布,一看只有3B参数,好嘞,就它了。第二阶段:利用中继扩散过程,执行 2 倍的超分辨率生成,从 512x512 输入生成 1024x1024 的图像。原创 2024-10-28 09:12:42 · 761 阅读 · 0 评论 -
YOLOv11环境搭建&推理测试
YOLOv 11是由位于美国和西班牙的Ultralytics团队开发的YOLO的最新版本。通过优化,这些模型比它们的前版本快得多。),这才过去这么短的时间,YOLOv11就横空出世了。5、更具适应性:更多支持的任务YOLOv 11支持多种类型的任务、多种类型的对象和多种类型的图像。2、GPU优化:这是现代ML模型的反映,GPU训练ML模型在速度和准确性上都更好。1、增强的模型结构:模型具有改进的模型结构,以获取图像处理并形成预测。4、更少的参数:更少的参数允许更快的模型,但v11的准确性不受影响。原创 2024-10-21 09:38:07 · 972 阅读 · 0 评论 -
Qwen2.5环境搭建&推理测试
9月29日消息,基准测试平台Chatbot Arena日前公布最新大模型盲测榜单,10天前发布的阿里通义千问开源模型Qwen2.5再次闯入全球十强,其大语言模型Qwen2.5-72B-Instruct排名LLM榜单第十,是前十唯一的中国大模型;4、支持超过29种语言的多语言能力,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。1、显著增加的知识量,在编程与数学领域的能力有了极大提升,这得益于我们在这些领域的专业专家模型。原创 2024-10-14 15:07:44 · 1103 阅读 · 0 评论 -
Ovis1.6-9B视觉大模型环境搭建&推理
引子前阵子,阿里Qwen2-VL刚刚闪亮登场,感兴趣的小伙伴可以移步Qwen2-VL环境搭建&推理测试-优快云博客。这第一的宝座还没坐多久,自家兄弟Ovis1.6版本就来了,20240919阿里国际AI团队开源多模态大模型Ovis1.6。在多模态权威综合评测基准OpenCompass上,Ovis1.6-Gemma2-9B版本综合得分超越Qwen2VL-7B、InternVL2-26B和MiniCPM-V-2.6等主流开源模型,在300亿以下参数开源模型中位居第一。一、模型介绍根据OpenCompass评测原创 2024-09-30 09:43:40 · 671 阅读 · 1 评论 -
MiniMind环境搭建&训练推理测试
该项目可以使用极小的数据和计算资源,在3小时内训练出一个26M的模型(ps:也许有读者会问,为啥我总是写推理,没有写训练,那显然是我没那个硬件条件呀,嗯,那这会儿这个条件有了。MiniMind 支持单机单卡和多卡训练,兼容多个流行的框架,并提供完整的代码和文档支持,帮助初学者和研究者快速上手并进行定制和扩展。MiniMind现在总共有5个模型,最小的是26M,已经有不错的对话能力了。但是这个方向还是一直要有人坚持去做的,这不,这两天翻到一个,MiniMind,只要3小时就能训练一个26M的大模型。原创 2024-09-23 09:24:21 · 922 阅读 · 0 评论 -
LongWriter环境安装&推理测试
进一步分析用户和大模型的交互日志,研究人员发现只有超过1%的用户请求明确提到要生成超过2000字的文本。为此,他们改变了模型在监督式微调(SFT)阶段使用的数据集的最大输出长度。结果发现,模型的最大输出长度与SFT数据集中的最大输出长度呈显著正相关。即使模型在预训练阶段见过更长的序列,但是SFT阶段缺乏长文本样本,还是会影响输出长度。一口气生成2万字,大模型输出也卷起来了!大模型的生成内容一般都不会太长,这对于内容创作、问题回答等都存在影响,可能导致模型回答问题不全面、创造性能降低等。OK,让我们开始吧。原创 2024-09-02 11:46:41 · 544 阅读 · 0 评论 -
mPLUG-Owl3环境搭建&推理测试
论文作者来自阿里mPLUG团队,他们一直深耕多模态大模型底座,在此之前还提出了:(1)高效多模态底座mPLUG系列(2)模块化多模态大语言模型底座mPLUG-Owl系列(3)文档理解底座mPLUG-DocOwl系列等。(2)重命名为frpc_linux_amd64_v0.2, 并放入gradio(/opt/conda/lib/python3.11/site-packages/gradio)这个文件夹中(按你对应的,每个人的路径可能不一样)(1)先按照提示,下载frpc_linux_amd64文件,原创 2024-08-26 09:09:20 · 1138 阅读 · 6 评论 -
OV-DINO开放词检测环境安装与推理
为了应对这些挑战,作者提出了一种新的统一开放词汇检测方法,称为OV-DINO,该方法在统一框架中对各种大规模数据集进行预训练,并使用语言感知选择性融合。在流行的开放词汇检测基准上评估了所提出的 OV-DINO 的性能,在零样本方式下,在 COCO 基准上实现了 50.6% 的 AP,在 LVIS 基准上实现了 40.1% 的 AP,展示了其强大的泛化能力。),最近,由中山大学和美团联合提出新的开放域检测方法OV-DINO:基于语言感知选择性融合、统一的开放域检测方法,取得了开放域检测新SOTA!原创 2024-08-19 17:38:01 · 1247 阅读 · 5 评论 -
SAM2:环境安装&代码调试
而最新发布的 SAM 2 可用于图片和视频,并可以实现实时、可提示的对象分割。SAM 2 在图像分割准确性方面超越了以往的能力,在视频分割性能方面优于现有成果,同时所需的交互时间减少了三倍。SAM 2 还可以分割任何视频或图像中的任何对象(通常称为零镜头泛化),这意味着它可以应用于以前未见过的视觉内容,而无需进行自定义调整。时隔大半年,SAM 2代终于来了,之前写过一篇《Segment Anything(SAM)环境安装&代码调试》,感兴趣童鞋请移步。,OK,让我们开始吧。原创 2024-08-08 09:45:31 · 6145 阅读 · 17 评论 -
Open-Sora1.2环境搭建&推理测试
在上一个版本基础上,引入了视频压缩网络(Video Compression Network)、更优的扩散模型算法、更多的可控性,并利用更多的数据训练出了 1.1B 的扩散生成模型。Stable Diffusion 3,最新的扩散模型,通过采用了 rectified flow 技术替代 DDPM,显著提升了图片和视频生成的质量。无意间翻到其开源网站上,发现2024.6.17发布1.2版本了,那还是过来看看有什么长足的进步吧,呦呵,现在支持720P 高清视频,质量和生成时长也有了突破性进展。原创 2024-07-08 15:09:59 · 2321 阅读 · 3 评论 -
零一科技Yi-VL 6B视觉大模型环境搭建&推理
感兴趣的童鞋可以移步。我个人始终觉得大模型发展之路,还是要走小而精之路,即模型小但能力强,所以这篇就部署下6B的模型吧(好吧,也许最重要原因是我显卡不够。OK,让我们开始吧。最近看新闻博客说零一科技的Yi-VL-Plus视觉大模型效果很不错,那就想着尝尝鲜。这是第四篇关于视觉大模型的博客。之前有写过一篇零一科技的chat大模型。原创 2024-06-11 09:22:48 · 799 阅读 · 0 评论 -
YOLOv10环境搭建&推理测试
此外,尽管作者在无需NMS的训练下使用一对一 Head 可以获得具有竞争力的端到端性能,但与使用NMS的一对多训练相比,仍然存在性能差距,特别是在小型模型中更为明显。例如,在YOLOv10-N和YOLOv10-S中,使用NMS的一对多训练的性能比无需NMS的训练分别高出1.0% AP和0.5% AP。此外,为了确保两个分支之间的和谐监督,作者创新性地提出了连贯匹配度量,这可以很好地减少理论上的监督差距,并带来性能的提升。2、作者提出了一种整体效率-精度驱动的模型设计策略,用于YOLO的模型架构。原创 2024-06-03 10:49:45 · 1429 阅读 · 0 评论 -
Hunyuan-DiT环境搭建&推理测试
感兴趣的可以移步。鹅厂开源的,我还是头一回部署。好的,那就让我们看看这个多模态视觉大模型有什么特点吧,首先它说它是汉英双语DiT模型,嗯,这个时候必须再次吐槽下智谱开源的CogVLM(),竟然只支持英文。其次呢,当然是各种测试集的niubility和各种sota,这里就不再赘述。OK,让我们开始吧。最近鹅厂竟然开源了一个多模态的大模型,之前分享福报厂的多模态视觉大模型(改为实际路径,防止下载模型。原创 2024-05-27 09:35:10 · 725 阅读 · 0 评论 -
OOTDiffusion环境搭建&推理测试
今天在全球最大的同性交友网站github上突然发现一个不错的虚拟试衣项目,看其效果还是不错,加入了扩散模型,效果看起来有质的提升。(4)在右侧,输入的人类图像通过掩码生成模块(mask generator, HumanParsing+OpenPose )将需要换衣以及相近的地方被遮盖为黑色(masked),并与高斯噪声连接在一起,作为多个采样步骤的去噪UNet的输入。(2)与CLIP编码器生成的辅助调节输入一起,通过服装融合(outfitting fusion)将服装特征纳入去噪UNet。原创 2024-05-22 09:08:33 · 1089 阅读 · 0 评论 -
Qwen-VL环境搭建&推理测试
Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。这几天阿里的Qwen2.5大模型在大模型圈引起了轰动,号称地表最强中文大模型。前面几篇也写了QWen的微调等,视觉语言模型也写了一篇CogVLM,感兴趣的小伙伴可以移步。相比于目前其它开源LVLM使用的224分辨率,Qwen-VL是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。天然支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;前面也写过一篇智谱AI的视觉大模型(原创 2024-05-13 11:54:12 · 1651 阅读 · 0 评论 -
YOLO-World环境搭建&推理测试
官方YOLO-World是基于mmyolo, mmdetection实现的,但U1S1,mm系列对于入门确实不错,但对于新开源算法上手测试真心难用,听说ultralytics支持YOLO-World了,可以直接通过ultralytics库来玩YOLO-world了使用方式简单到了极致,几行命令即可,还不需要安装一大堆的mm包,不需要编译各种无关op。OK,让我们开始吧。YOLO-World在大规模数据集上的预训练展示了强大的零样本性能,在LVIS上达到35.4 AP的同时,还能保持52.0 FPS的速度。原创 2024-05-06 17:26:13 · 3025 阅读 · 2 评论 -
MedSAM环境搭建&推理测试
环境搭建&推理测试,虽然话说Segment Anything,但是原始模型对于一些子领域的效果还是不尽如人意的。最近医学领域的分割引起了我的注意,调研了一圈,也想看看在医学领域是否有SAM,嘿,巧了,还真被我找到了。OK,让我们开始吧。python MedSAM_Inference.py 148行 添加 plt.savefig("result.jpg")1、下载模型后拷贝至work_dir/文件夹下。之前分享过一篇SAM(感兴趣的,请移步。原创 2024-04-15 09:10:42 · 1079 阅读 · 1 评论 -
敏感词检测-DFA算法笔记及实现
这种方法是可靠的,但是真实的敏感词库里存放的敏感词是非常多的,如果遍历敏感词库的性能较低,而且大部分情况下用户输入的内容都是不包含敏感词的,大部分情况下遇到的都是算法计算量大的情况,那么就需要找到一种高效的敏感词检测方法。算法实现逻辑是循环用户输入的字符串,依次查找每个字符是否出现在树的节点上,比如用户输入“打倒日本人”,从第一个字开始判断,“打”不在树的根节点上,进入下一步,“倒”也不在根节点上,进入下一步,“日”出现在了根节点上,这时状态切换,下一步的查找范围变为“日”的子节点;OK,让我们开始吧。原创 2024-04-08 09:31:37 · 1278 阅读 · 0 评论 -
Open-Sora1.0环境搭建&推理测试
Sora最主要有三个优点:第一,“60s超长视频”,之前文本生成视频大模型一直无法真正突破AI视频的4秒连贯性瓶颈,而Sora直接做到了60秒连贯视频。第二,单视频既能有多角度镜头也能一镜到底,可以很好地展现场景中的光影关系、各个物体间的物理遮挡、碰撞关系,并且镜头丝滑可变。说明OpenAI也亲自下场来卷文生图的这个领域了,当然我们现在没办法直接试用Sora看效果,那么今天的主角出场,Open-Sora,北京大学与兔展智能联合发起的Sora复现计划,旨在联合开源社区力量完成对Sora的复现。原创 2024-04-03 08:54:58 · 1587 阅读 · 1 评论 -
RT-DETR环境搭建&推理测试
百度的这篇文章首先分析了现代实时目标检测器中NMS对推理速度的影响,并建立了端到端的速度基准。为了避免NMS引起的推理延迟,作者提出了一种实时检测Transformer(RT-DETR),这是第一个实时DERT端到端目标检测器。具体而言,设计了一种高效的混合编码器,通过解耦尺度内交互和跨尺度融合来高效处理多尺度特征,并提出了IoU感知的查询选择,以提高目标查询的初始化。此外,本文提出的检测器支持通过使用不同的解码器层来灵活调整推理速度,而不需要重新训练,这有助于实时目标检测器的实际应用。原创 2024-03-28 14:12:47 · 1473 阅读 · 1 评论 -
Detecting of Cracks and Scratches读书笔记
基本的方法是根据零件的重复模式的部分建立一个匹配空域滤波器,然后利用滤波器过滤掉模式,留下完整的表面刮痕,并为表面缺陷优化信噪比。运用匹配滤波器的优势是具备滤波器与输入图片之间定位不匹配的容忍度,随着标准化的不同,容忍度是可以变化的。接下来,减去输入图片的低通图片,留下高通的部分(刮痕和龟裂)。在这个复杂的检测任务上,人类检测员的认定有可能根据不同的因素导致不同的认定结果,然后机器视觉可以给出始终一致的认定结果。由于这些缺陷是低对比度的,合适的光照可以放大对比度,光照对于缺陷检测是一个尤其重要的因素。原创 2024-03-21 13:55:58 · 279 阅读 · 1 评论 -
YOLOv9环境搭建&推理测试
对于CV从业者来说,YOLO系列是个绕不过的经典结构,笔者遥想当年YOLO横空出世的时候,Faster RCNN还是学术界目标检测的翘楚。二阶段检测还是大行其道,不过时至今日,估摸着没有人再提二阶段目标检测的结构了。YOLO系列也从1更新到了9,这新鲜出炉的v9版本,我也来凑个热闹(虽然没有前几年那么热闹了)。OK,让我们开始吧。PS:转换的时候很贴心,没有onnx,自动安装。PS:右上角的自行车检测出来,还是惊艳到我了。oh,no,人生苦短,我选docker。原创 2024-03-11 10:07:52 · 2034 阅读 · 2 评论 -
GFP-GAN环境搭建&推理测试
近期,文生图,wav2lip很火,文生图,见识的太多,不多说了。wav2lip其通过语音驱动唇部动作并对视频质量进行修复,里面一般涉及到三个步骤,文本到语音转化,语音驱动唇部动作,图像质量修复。最后一步骤涉及到图像质量修复,考虑到之前做过基于GFP-GAN相关的工作,在此,总结汇总下。在 wav2lip 中扮演视频质量判别器的任务,负责对嘴唇修复后的图像帧进行质量修复,提供更高质量的视频效果。OK,让我们开始吧。# 安装realesrgan包,用于增强没有人脸情况下的背景,项目刚好需要,就安装了。原创 2024-03-06 11:35:11 · 1128 阅读 · 1 评论 -
中英文互译赫尔辛基大学翻译模型安装与测试
近期接到一个文本中英互译的任务,一直以为这种翻译应该很成熟,各种商用版本很多。那么开源的一定也不少,经过网络搜索发现,近两年还真的出现了很多优秀的开源翻译项目。找到了赫尔辛基大学开源免费的多语言翻译模型,开发了1400多个多语种翻译模型。其中就包含了中译英和英译中。OK,那就让我们开始吧。下载红框中的7个文件即可,下载完成后,文件放入指定两个不同文件夹中。1、中译英 python zh_en_test.py。2、英译中 python en_zh_test.py。2、anaconda环境。原创 2024-02-26 17:27:59 · 1828 阅读 · 3 评论