- 博客(141)
- 资源 (6)
- 收藏
- 关注
原创 Yolov12手把手安装配置教程,非常容易!
最新的 YOLOv12 已正式发布!作为目标检测领域的前沿模型,它带来了更高的检测精度与更快的推理速度。本文将简要介绍如何安装并使用 YOLOv12,帮助大家快速上手,体验这一最新版本的强大性能。
2025-03-18 09:21:51
994
原创 EDPose:探讨端到端的实时多人姿态估计
本文提出了一种新的端到端显式盒检测的框架,称为ED-Pose,它统一了人级(全局)和关键点级(局部)信息之间的上下文学习。与以往的单阶段方法不同,ED-Pose将该任务重新视为两个显式的盒子检测过程,具有统一的表示和回归监督。首先,我们引入了一个人工检测解码器来提取全局特征。它可以为后一种关键点的检测提供良好的初始化,使训练过程快速收敛。其次,为了引入关键点附近引入上下文信息,我们将姿态估计视为关键点盒检测问题来学习每个关键点的盒位置和内容。
2025-01-02 14:08:34
1206
原创 RTMW:实时多人2D和3D 全人体姿态估计
全身姿势估计是一项具有挑战性的任务,它需要同时预测身体、手、脸和脚的关键点。全身姿态估计旨在预测人体的细粒度姿态信息,包括面部、躯干、手和脚,这在以人为中心的感知和生成的研究以及各种应用中发挥着重要作用。在这项工作中,我们提出了RTMW(实时多人全身姿态估计模型),一系列高性能的二维/三维全身姿态估计模型。我们将RTMPose模型架构与FPN和HEM(层次编码模块)相结合,以更好地捕获从不同尺度的不同身体部位的姿态信息。
2024-12-24 14:50:09
1868
原创 RTMO: 面向高性能单阶段的实时多人姿态估计
实时多人姿态估计在平衡速度和精度方面提出了重大挑战。虽然两阶段自上而下的方法会随着图像中人数的增加而减慢,但现有的一阶段方法往往不能同时提供高精度和实时性能。本文介绍了RTMO,一个单阶段姿态估计框架,通过在YOLO架构中使用双一维热图表示关键点,无缝集成了坐标分类,在保持高速的同时,实现了与自上而下的方法相当的精度。我们提出了一个动态坐标分类器和一个定制的损失函数,专门设计来解决坐标分类和密集预测模型之间的不兼容性。
2024-12-24 11:35:03
793
原创 AI Agent尝鲜:AI代理或智能体那么火,那么它有什么特别之处呢?
介绍了扣子平台如何使用AI Agent的demo。它能做的事情还有很多,持续更新中!
2024-11-29 11:03:09
379
原创 Hallo2手把手实现:一个人脸讲话系统,就这么容易安装!
在2024年6月,复旦大学的研究团队推出了Hallo项目,这是一个用于纵向图像动画的分层音频驱动视觉合成技术,引起了广泛关注。紧接着,京东健康基于Hallo模型使用中文数据训练了新的模型JoyHallo。到了10月16日,Hallo2作为Hallo的升级版本惊艳亮相。本章,我们主要复现这个work。
2024-11-27 16:21:56
1308
原创 全面解析Hallo2:深入了解其核心特性与优势
本论文介绍了Hallo2模型的更新,提出了一系列设计增强以扩展其功能。首先,本论文将该方法扩展至制作更长时间的视频,并针对外观漂移和时间伪影等挑战,研究了在条件运动框架的图像空间内的增强策略。具体来说,本论文引入了一种结合高斯噪声增强的贴片滴技术,以增强视觉一致性和长期的比例相干性。其次,本论文实现了4K分辨率的肖像视频生成。为此,本论文实现了潜在码的向量量化,并应用时间对齐技术以保持跨时间维度的一致性。通过集成高质量的解码器,本论文实现了4K分辨率的可靠合成。
2024-11-27 15:13:10
881
原创 YOLO-World解读:零基础学习开放世界模型
YOLO World是一项突破性的技术,它增强了YOLO探测器在开放词汇检测方面的能力。该技术通过视觉语言建模和在大规模数据集上的深度预训练,引入了先进的RepVL-PAN网络以及区域文本对比损失,从而强化了图像与文本之间的相互作用。在LVIS数据集的评估中,YOLO World实现了35.4的AP值和52.0的FPS,这一成就不仅超越了许多尖端方法,也标志着其在性能上的卓越。此外,YOLO World在对象检测和开放词汇实例分割等任务上也展现了卓越的性能,进一步证明了其在该领域的领先地位。
2024-11-24 09:20:14
3579
3
原创 ComfyUI+InstantID+ArtGallery尝鲜
ComfyUI,作为当前SD的一个节点流版本,非常适合高级AI设计师使用;InstantID,作为换脸的SOTA技术,以高度拟合,达到以假乱真的地步而流行;ArtGallery,非常人性化的将提示词,以可视化的方式展示出来,从而广受欢迎。这里,我们尝试将这三种组合放在一起使用,能达到什么惊奇的效果呢?这个仓库(节点)也是一个可视化提示词的工具。其效果如下:里面包含很多背景的图片,可以作为设计的元素。AIGC,就像一个魔方棒一样,能够让人的视界得到拓展;如何玩起来,做有意思的作品,动起来吧!
2024-11-24 09:05:56
1046
原创 干货:零基础Google免费的GPU Colab+手把手理解扩散模型
在普遍收费的云服务器中,免费的Google Colab算是一股清流,这么良心的云服务器赶紧学起来。整体来说没有什么操作难点,最重要的是他是免费,而且分配的配置都比较好,所以真的很良心。
2024-10-30 08:30:41
639
原创 最新版的 Git+VS Code同步版本管理实践
最近刚好在做免费的个人团队IP打造,需要使用git来同步最新的信息。为此,不得不重新学习这门技巧,来提升打造的效果。
2024-10-24 20:45:41
1510
原创 MedSAM2调试安装与使用记录
我们在解读完MedSAM之后,迫不及待想尝尝这个技术带来的福音,因此验证下是否真的那么6。这不,新鲜的使用教程来了!!!这里将SAM2MED进行了测试和推理,步骤比较多,但是也不难。模型取得的效果,还需要进一步验证!
2024-10-15 21:00:20
2014
1
原创 CUDA找不到驱动?Nvidia-smi找不到Driver?reboot卡在界面?
原操作系统已经配置好Nvidia driver,和CUDA 11.8。但是某君在安装CUDA12.1的时候,没有安装成功,导致原来的显卡驱动找不到,从而conda环境都被牵连破坏。抓狂不,,,
2024-10-15 14:56:02
355
原创 SAM应用:医学图像和视频中的任何内容分割中的基准测试与部署
最近在分割基础模型方面的进展,使得在广泛的自然图像和视频上能够进行准确和高效的分割,但它们对医学数据的实用性仍然不清楚。在这项工作中,作者首先对Segment Anything Model 2(SAM2)在11种医学图像模式和视频上的全面基准测试,并与SAM1和MedSAM进行比较,指出其优势和不足。然后,作者开发了一个迁移学习流程,并展示了通过微调可以快速将SAM2适应于医学领域。此外,我们将SAM2实现为一个3D切片插件和Gradio API,用于高效的3D图像和视频分割。
2024-10-14 18:37:36
1402
原创 YOLO11+SAM2:强强联合,能爆发出什么效果?
在YOLO11的基础上,浅尝SAM2的模型带来的惊艳效果!唯一遗憾的是,YOLO11的官方代码只提供了inference的代码,并没有提供training的代码,因此训练自己的模型还是需要从SAM2的官方代码入手,这里只是快速体验SAM的效果。
2024-10-08 19:22:38
3374
5
原创 换脸讲话:hallo在windows下的安装实现
提示:之前安装过linux下的hallo,即人脸讲话系统。hallo是目前使用的较好的一个虚拟人脸视频生成系统,相对比SadTalker而言,表情更加逼真,人物更加形象。这里对windows下尝鲜hallo的教程,进行了详细的说明。
2024-09-24 14:41:01
1930
原创 GPT-SoVITS:强大的声音克隆工具,模仿你说话的声音怎么那么像?
"真的太像我了”,此处指的是模仿你的声音太像了。那么,如何实现这样功能呢?这里介绍一个非常好用的声音克隆工具,为talking face generation 做准备。理论上,你想要模仿任何人的声音,都是可行的。至此,由于通过该工具,训练自己的声学模型,并定制文本的播报,这个教程详细做了这方面的说明。
2024-09-24 10:22:21
1819
3
原创 linux下手把手安装3DGS和TalkingGaussian
该教程是记录如何一步步安装linux下的3DGS环境。走过的路,会有起起伏伏的;那些踩过的坑,记录下来,并提供一个可成功的路线,供参考。这篇文章主要贡献有:1、手把手指导如何安装3DGS2、实现https://github.com/Fictionarry/TalkingGaussian的安装指导踩过的坑,把它展示出来,以避免重新踩坑
2024-09-04 17:02:27
2120
2
原创 人机交互系统中的人脸讲话生成系统调研
来自中国传媒大学团队的调研工作,Talking Face generation,TFG,是当前一个非常火热的研究方向。TFG发展到哪一步了,未来的发展趋势是如何的,如何进行TFG的研究工作,希望本篇解读能够解答问题。随着人工智能技术的飞速发展,虚拟人在个人辅助、智能客服、在线教育等领域得到了广泛的应用。拟人化数字人可以快速与人联系,增强人机交互的用户体验。作者设计了人机交互系统的框架,其中包括语音识别,文本到语音,对话系统,虚拟人生成。然后,作者通过虚拟人深度生成框架对说话头视频生成模型进行了分类。
2024-09-03 10:10:55
1627
原创 从像素到肖像:讲话头部生成技术与应用的充分调研
这篇综述文章介绍讲话人脸生成(Talking Face Generation, TFG),分析比较多过去几年的成熟技术,针对比较新的技术如NeRF、3DGS等介绍的内容比较少,我们可以在此基础上,添加最新技术的额外介绍。深度学习和计算机视觉的最新进展,引发了对生成逼真说话头部的火热程度的激增。本文提出了一份全面的调查,概述了说话头部生成的最新方法。作者系统地将它们归类为四种主要方法:图像驱动、音频驱动、视频驱动以及其他(包括神经辐射场(NeRF)和基于3D的方法)。
2024-09-02 16:58:42
1371
原创 解读GaussianTalker:利用音频驱动的基于3D高斯点染技术的实时高保真讲话头像合成
讲话人脸生成系统(Talking face generation, TFG),最近受到广泛欢迎。它的火爆程度随着近期一些新技术如扩散模型、3DGS和NeRF等出现,而受到进一步关注。但是遇到的痛点也不少,比如之前很火的Hallo等,使用的体验是不错,但是生成视频的速度比较慢。那么,如何快速生成高保真的视频效果呢?本篇文章带你探索这个良心工作。效果展示该文提出了GaussianTalker,一个新颖的框架,用于实时生成可控制姿态的会说话头像。
2024-08-30 19:38:57
1511
原创 Hallo:让一张图开口说话
Hallo模型,是近期开源的一个生成式的模型,它可以输入一张图片+一段语音,就可以生成对应的一段视频。这个技术的难点主要有:1、如何让音频与脸部的发音系统如嘴唇、面部表情联动;2、生成的视频质量比较高。这个开源的工程,可以跟其他工具配套使用,如windows版本、webUI等集成使用,非常友好。例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
2024-07-26 09:58:47
1884
原创 基于YOLOv8实现XRay下的异常物品检测:从数据集到检测过程
在公共出行领域,安全检测已成为不可或缺的一环。实现对危险物品的智能检测,不仅能够提升安全水平,也是保障公众安心出行的关键。随着技术的进步,智能算法的应用已成为实现这一目标的重要手段。通过精准的算法分析,我们能够快速识别并拦截潜在的威胁,为乘客提供一个更加安全、可靠的出行环境。
2024-07-25 19:10:57
745
原创 当火热的Mamba遇到火热的YOLO,会发生怎么样的反应吗?
计算机视觉的发展,从CNN开始火起来,到Transformer再将之推向高潮,最近火热的Mamba架构也开始突起爆发。如果将最近火热的Mamba模型与YOLO检测框架结合,能擦出什么火花呢?这篇文章将问你解读。不同模型学习到的注意力图可视化YOLOv5[46]、YOLOv6[27]、YOLOv7[28]、YOLOv8[42]和曼巴YOLO在主干中的随机初始权可视化结果输出的特征图。
2024-07-05 19:13:38
1708
原创 Hallo:分级音频驱动视觉合成肖像动画
人像动画,又称说话头像动画,旨在从单个静态图像和相应的语音音频中生成一个说话的人像。这项技术在视频游戏和虚拟现实、电影和电视制作、社交媒体和数字营销、在线教育和培训以及人机交互和虚拟助理等各个领域都具有巨大的价值。Stable Diffusion[31]和DiT[27]等作品体现了该领域的重大进展,它们涉及将噪声逐渐纳入潜在空间的训练数据中,然后通过反向过程逐步从该噪声中重建信号。
2024-06-29 16:15:30
1581
原创 端到端的全人体关键点检测:手把手实现从YOLOPose到YOLOWhole
本文实现全人体133个关键点的联合检测。流程如下:1、数据集,COCO-whole, Halpe;下载好;2、模型搭建,先基于yolov8来检测人体姿态,17个点;3、迁移任务,17个点,把它拓展到133个点;4、优化133个点的模型;
2024-06-24 19:11:51
1588
2
原创 不翻墙安装yolov8环境下的RT-DETR并实现PCB表面缺陷检测
通过不用翻墙就能实现yolo平台的RT-DETR使用,并迁移学习PCB表面缺陷检测。
2024-06-24 19:06:22
1291
1
原创 RT-DETR那么火,如何使用它、如何改进它?热滚滚的使用攻略出炉了
RT-DETR作为新一代的旗舰DETR系列算法模型,使用它,并改造它,提升性能,这是我们所追求的。
2024-06-14 09:55:24
2554
4
原创 YOLO10:手把手使用以及检测XRay改进
v9还没整明白,v10又来了。而且还是打败天下无敌手的存在,连最近很火的RT-DETR都被打败了。那么,笑傲目标检测之林的v10又能持续多久呢?通过这次安装到最后的功能实现,可以明显感觉到yolo10简单的安装步骤,以及它强大的功能。
2024-06-05 20:11:11
3234
原创 Transformer模型工作原理(脚本)
场景: 画面展示一个简洁的标题:“Transformer模型工作原理”旁白“今天我们来了解一下Transformer模型,它是用于自然语言处理的强大工具。场景: 回顾整个流程,从输入嵌入到最终输出。旁白“总结一下,Transformer模型通过编码器和解码器层,自注意力和多头注意力机制,成功地完成了从输入序列到输出序列的转换。视觉效果: 动画快速回顾所有步骤,最后定格在完整的Transformer结构图。
2024-06-05 10:30:18
951
原创 ControlNet之黑白照片复原+上色
从最初的黑白模糊照片到现在的高清彩色照片的显著进步,这正是ControlNet技术强大之处的体现。它不仅代表了技术的飞跃,同时也象征着我们对清晰视觉体验的不懈追求。
2024-05-31 10:40:31
1469
原创 零基础学习图生图
有些情况下,无法用文字准确描述的时候,提示词的作用无法发挥出来,这个时候可以借助其他图的结构,来生成我们指定的图片内容,这就是图生图的原始思想。这个的作用是我们不用再手动绘画蒙版具体功能,而是可以通过其他软件来制造蒙版,完成更加细致的修改,然后在输入相对应的提示词,对蒙版区域内的内容进行修改,最好不要用纯色蒙版。局部重绘,字面意思一样,即通过鼠标画笔将局部像素抹掉。涂鸦功能,体现在:一个最好是纯白色背景的图片,然后使用鼠标选择画笔与颜色进行涂鸦绘画,然后通过提示词,即可生成与涂鸦内容相似的内容。
2024-05-29 17:42:55
917
原创 定制文生图:从零基础训练LoRA,生成可爱的热巴姐姐
LoRA模型(Low-Rank Adaptation)是一种轻量级的模型微调方法,特别适用于大型预训练模型的快速适应。 在Stable Diffusion模型中,LoRA模型通过引入低秩矩阵来修改预训练模型的参数,从而实现模型的快速适应和优化。花1分钟了解LoRA在做什么。我们收集了30张热巴的个人照,然后送入到一个微调模型中训练,以让文生图模型能够生成热巴照片。
2024-05-23 16:10:47
1593
原创 RT-DETR在实时目标检测上超越YOLO8
在这项工作中,作者提出了一个名为RT-DETR的实时端到端检测器,它成功地将DETR扩展到实时检测场景,并实现了最先进的性能。RT-DETR包括两个关键增强:一个高效的混合编码器,它可以迅速处理多尺度特征,以及最小化不确定性的查询选择,这提高了初始对象查询的质量。此外,RT-DETR支持灵活的速度调整,无需重新训练,并消除了由两个NMS阈值引起的不便,从而促进了其实际应用。RT-DETR及其模型扩展策略拓宽了实时目标检测的技术方法,为YOLO之外的多样化实时场景提供了新的可能性。
2024-05-22 19:41:16
2954
3
原创 手把手安装PaddleDetection的RT-DETR并实现PCB缺陷精确检测
这篇记录如何在Linux环境上通过anaconda来安装飞浆的RT-DETR,并实现PCB板表面缺陷检测,性能刚刚的。自此,基于Real-Time DETR的PCB板表面缺陷检测任务调试完成,但有关RT-DETR算法为什么如此流畅,里面的技巧在哪里,我们将进一步读原文,以了解内部原理。
2024-05-21 09:49:26
1873
1
原创 你想要的照片,AI都能帮你画出来:记录Stable Diffusion的力量
Stable Diffision火得一塌糊涂,作为开源阵营里文生图的典型代表,是跟闭源的Dall-E,midjourney分庭抗礼的利器。不体验一把,怎么能说自己是搞生成模型的呢?SD还有哪些地方可以挖掘和探索的呢?离市场应用还有多远。有待挖掘。
2024-04-23 13:05:16
998
Nonlinear Control Exercises and Homework
2019-02-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人