
AI & Computer Vision
文章平均质量分 91
追踪最新前沿技术,分享爬坑踩坑记录,让后来者少花时间,以简单高效的方式去做技术人
烧技湾
AI changes the world.
展开
-
实时面部检测与姿态估计:从Python到Unity的全栈实现
本文将介绍如何通过Python的dlib库实现面部68个特征点的实时检测,结合卡尔曼滤波优化数据流,并通过Socket通信将数据传递至Unity引擎,最终驱动3D模型的自然面部表情与头部运动。本文提供完整的代码实现和工作流解析,适用于虚拟角色驱动、AR/VR交互等场景。转载 2025-04-05 20:07:37 · 17 阅读 · 0 评论 -
EDPose:探讨端到端的实时多人姿态估计
本文提出了一种新的端到端显式盒检测的框架,称为ED-Pose,它统一了人级(全局)和关键点级(局部)信息之间的上下文学习。与以往的单阶段方法不同,ED-Pose将该任务重新视为两个显式的盒子检测过程,具有统一的表示和回归监督。首先,我们引入了一个人工检测解码器来提取全局特征。它可以为后一种关键点的检测提供良好的初始化,使训练过程快速收敛。其次,为了引入关键点附近引入上下文信息,我们将姿态估计视为关键点盒检测问题来学习每个关键点的盒位置和内容。原创 2025-01-02 14:08:34 · 1225 阅读 · 0 评论 -
RTMW:实时多人2D和3D 全人体姿态估计
全身姿势估计是一项具有挑战性的任务,它需要同时预测身体、手、脸和脚的关键点。全身姿态估计旨在预测人体的细粒度姿态信息,包括面部、躯干、手和脚,这在以人为中心的感知和生成的研究以及各种应用中发挥着重要作用。在这项工作中,我们提出了RTMW(实时多人全身姿态估计模型),一系列高性能的二维/三维全身姿态估计模型。我们将RTMPose模型架构与FPN和HEM(层次编码模块)相结合,以更好地捕获从不同尺度的不同身体部位的姿态信息。原创 2024-12-24 14:50:09 · 1890 阅读 · 0 评论 -
RTMO: 面向高性能单阶段的实时多人姿态估计
实时多人姿态估计在平衡速度和精度方面提出了重大挑战。虽然两阶段自上而下的方法会随着图像中人数的增加而减慢,但现有的一阶段方法往往不能同时提供高精度和实时性能。本文介绍了RTMO,一个单阶段姿态估计框架,通过在YOLO架构中使用双一维热图表示关键点,无缝集成了坐标分类,在保持高速的同时,实现了与自上而下的方法相当的精度。我们提出了一个动态坐标分类器和一个定制的损失函数,专门设计来解决坐标分类和密集预测模型之间的不兼容性。原创 2024-12-24 11:35:03 · 799 阅读 · 0 评论 -
AI Agent尝鲜:AI代理或智能体那么火,那么它有什么特别之处呢?
介绍了扣子平台如何使用AI Agent的demo。它能做的事情还有很多,持续更新中!原创 2024-11-29 11:03:09 · 380 阅读 · 0 评论 -
Hallo2手把手实现:一个人脸讲话系统,就这么容易安装!
在2024年6月,复旦大学的研究团队推出了Hallo项目,这是一个用于纵向图像动画的分层音频驱动视觉合成技术,引起了广泛关注。紧接着,京东健康基于Hallo模型使用中文数据训练了新的模型JoyHallo。到了10月16日,Hallo2作为Hallo的升级版本惊艳亮相。本章,我们主要复现这个work。原创 2024-11-27 16:21:56 · 1316 阅读 · 0 评论 -
全面解析Hallo2:深入了解其核心特性与优势
本论文介绍了Hallo2模型的更新,提出了一系列设计增强以扩展其功能。首先,本论文将该方法扩展至制作更长时间的视频,并针对外观漂移和时间伪影等挑战,研究了在条件运动框架的图像空间内的增强策略。具体来说,本论文引入了一种结合高斯噪声增强的贴片滴技术,以增强视觉一致性和长期的比例相干性。其次,本论文实现了4K分辨率的肖像视频生成。为此,本论文实现了潜在码的向量量化,并应用时间对齐技术以保持跨时间维度的一致性。通过集成高质量的解码器,本论文实现了4K分辨率的可靠合成。原创 2024-11-27 15:13:10 · 886 阅读 · 0 评论 -
YOLO-World解读:零基础学习开放世界模型
YOLO World是一项突破性的技术,它增强了YOLO探测器在开放词汇检测方面的能力。该技术通过视觉语言建模和在大规模数据集上的深度预训练,引入了先进的RepVL-PAN网络以及区域文本对比损失,从而强化了图像与文本之间的相互作用。在LVIS数据集的评估中,YOLO World实现了35.4的AP值和52.0的FPS,这一成就不仅超越了许多尖端方法,也标志着其在性能上的卓越。此外,YOLO World在对象检测和开放词汇实例分割等任务上也展现了卓越的性能,进一步证明了其在该领域的领先地位。原创 2024-11-24 09:20:14 · 3759 阅读 · 2 评论 -
ComfyUI+InstantID+ArtGallery尝鲜
ComfyUI,作为当前SD的一个节点流版本,非常适合高级AI设计师使用;InstantID,作为换脸的SOTA技术,以高度拟合,达到以假乱真的地步而流行;ArtGallery,非常人性化的将提示词,以可视化的方式展示出来,从而广受欢迎。这里,我们尝试将这三种组合放在一起使用,能达到什么惊奇的效果呢?这个仓库(节点)也是一个可视化提示词的工具。其效果如下:里面包含很多背景的图片,可以作为设计的元素。AIGC,就像一个魔方棒一样,能够让人的视界得到拓展;如何玩起来,做有意思的作品,动起来吧!原创 2024-11-24 09:05:56 · 1053 阅读 · 0 评论 -
干货:零基础Google免费的GPU Colab+手把手理解扩散模型
在普遍收费的云服务器中,免费的Google Colab算是一股清流,这么良心的云服务器赶紧学起来。整体来说没有什么操作难点,最重要的是他是免费,而且分配的配置都比较好,所以真的很良心。原创 2024-10-30 08:30:41 · 643 阅读 · 0 评论 -
最新版的 Git+VS Code同步版本管理实践
最近刚好在做免费的个人团队IP打造,需要使用git来同步最新的信息。为此,不得不重新学习这门技巧,来提升打造的效果。原创 2024-10-24 20:45:41 · 1520 阅读 · 0 评论 -
MedSAM2调试安装与使用记录
我们在解读完MedSAM之后,迫不及待想尝尝这个技术带来的福音,因此验证下是否真的那么6。这不,新鲜的使用教程来了!!!这里将SAM2MED进行了测试和推理,步骤比较多,但是也不难。模型取得的效果,还需要进一步验证!原创 2024-10-15 21:00:20 · 2061 阅读 · 0 评论 -
SAM应用:医学图像和视频中的任何内容分割中的基准测试与部署
最近在分割基础模型方面的进展,使得在广泛的自然图像和视频上能够进行准确和高效的分割,但它们对医学数据的实用性仍然不清楚。在这项工作中,作者首先对Segment Anything Model 2(SAM2)在11种医学图像模式和视频上的全面基准测试,并与SAM1和MedSAM进行比较,指出其优势和不足。然后,作者开发了一个迁移学习流程,并展示了通过微调可以快速将SAM2适应于医学领域。此外,我们将SAM2实现为一个3D切片插件和Gradio API,用于高效的3D图像和视频分割。原创 2024-10-14 18:37:36 · 1411 阅读 · 0 评论 -
YOLO11+SAM2:强强联合,能爆发出什么效果?
在YOLO11的基础上,浅尝SAM2的模型带来的惊艳效果!唯一遗憾的是,YOLO11的官方代码只提供了inference的代码,并没有提供training的代码,因此训练自己的模型还是需要从SAM2的官方代码入手,这里只是快速体验SAM的效果。原创 2024-10-08 19:22:38 · 3467 阅读 · 4 评论 -
换脸讲话:hallo在windows下的安装实现
提示:之前安装过linux下的hallo,即人脸讲话系统。hallo是目前使用的较好的一个虚拟人脸视频生成系统,相对比SadTalker而言,表情更加逼真,人物更加形象。这里对windows下尝鲜hallo的教程,进行了详细的说明。原创 2024-09-24 14:41:01 · 1953 阅读 · 0 评论 -
GPT-SoVITS:强大的声音克隆工具,模仿你说话的声音怎么那么像?
"真的太像我了”,此处指的是模仿你的声音太像了。那么,如何实现这样功能呢?这里介绍一个非常好用的声音克隆工具,为talking face generation 做准备。理论上,你想要模仿任何人的声音,都是可行的。至此,由于通过该工具,训练自己的声学模型,并定制文本的播报,这个教程详细做了这方面的说明。原创 2024-09-24 10:22:21 · 1857 阅读 · 2 评论 -
人机交互系统中的人脸讲话生成系统调研
来自中国传媒大学团队的调研工作,Talking Face generation,TFG,是当前一个非常火热的研究方向。TFG发展到哪一步了,未来的发展趋势是如何的,如何进行TFG的研究工作,希望本篇解读能够解答问题。随着人工智能技术的飞速发展,虚拟人在个人辅助、智能客服、在线教育等领域得到了广泛的应用。拟人化数字人可以快速与人联系,增强人机交互的用户体验。作者设计了人机交互系统的框架,其中包括语音识别,文本到语音,对话系统,虚拟人生成。然后,作者通过虚拟人深度生成框架对说话头视频生成模型进行了分类。原创 2024-09-03 10:10:55 · 1635 阅读 · 0 评论 -
从像素到肖像:讲话头部生成技术与应用的充分调研
这篇综述文章介绍讲话人脸生成(Talking Face Generation, TFG),分析比较多过去几年的成熟技术,针对比较新的技术如NeRF、3DGS等介绍的内容比较少,我们可以在此基础上,添加最新技术的额外介绍。深度学习和计算机视觉的最新进展,引发了对生成逼真说话头部的火热程度的激增。本文提出了一份全面的调查,概述了说话头部生成的最新方法。作者系统地将它们归类为四种主要方法:图像驱动、音频驱动、视频驱动以及其他(包括神经辐射场(NeRF)和基于3D的方法)。原创 2024-09-02 16:58:42 · 1376 阅读 · 0 评论 -
解读GaussianTalker:利用音频驱动的基于3D高斯点染技术的实时高保真讲话头像合成
讲话人脸生成系统(Talking face generation, TFG),最近受到广泛欢迎。它的火爆程度随着近期一些新技术如扩散模型、3DGS和NeRF等出现,而受到进一步关注。但是遇到的痛点也不少,比如之前很火的Hallo等,使用的体验是不错,但是生成视频的速度比较慢。那么,如何快速生成高保真的视频效果呢?本篇文章带你探索这个良心工作。效果展示该文提出了GaussianTalker,一个新颖的框架,用于实时生成可控制姿态的会说话头像。原创 2024-08-30 19:38:57 · 1525 阅读 · 0 评论 -
Hallo:让一张图开口说话
Hallo模型,是近期开源的一个生成式的模型,它可以输入一张图片+一段语音,就可以生成对应的一段视频。这个技术的难点主要有:1、如何让音频与脸部的发音系统如嘴唇、面部表情联动;2、生成的视频质量比较高。这个开源的工程,可以跟其他工具配套使用,如windows版本、webUI等集成使用,非常友好。例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。原创 2024-07-26 09:58:47 · 2052 阅读 · 0 评论 -
基于YOLOv8实现XRay下的异常物品检测:从数据集到检测过程
在公共出行领域,安全检测已成为不可或缺的一环。实现对危险物品的智能检测,不仅能够提升安全水平,也是保障公众安心出行的关键。随着技术的进步,智能算法的应用已成为实现这一目标的重要手段。通过精准的算法分析,我们能够快速识别并拦截潜在的威胁,为乘客提供一个更加安全、可靠的出行环境。原创 2024-07-25 19:10:57 · 764 阅读 · 0 评论 -
当火热的Mamba遇到火热的YOLO,会发生怎么样的反应吗?
计算机视觉的发展,从CNN开始火起来,到Transformer再将之推向高潮,最近火热的Mamba架构也开始突起爆发。如果将最近火热的Mamba模型与YOLO检测框架结合,能擦出什么火花呢?这篇文章将问你解读。不同模型学习到的注意力图可视化YOLOv5[46]、YOLOv6[27]、YOLOv7[28]、YOLOv8[42]和曼巴YOLO在主干中的随机初始权可视化结果输出的特征图。原创 2024-07-05 19:13:38 · 1712 阅读 · 0 评论 -
Hallo:分级音频驱动视觉合成肖像动画
人像动画,又称说话头像动画,旨在从单个静态图像和相应的语音音频中生成一个说话的人像。这项技术在视频游戏和虚拟现实、电影和电视制作、社交媒体和数字营销、在线教育和培训以及人机交互和虚拟助理等各个领域都具有巨大的价值。Stable Diffusion[31]和DiT[27]等作品体现了该领域的重大进展,它们涉及将噪声逐渐纳入潜在空间的训练数据中,然后通过反向过程逐步从该噪声中重建信号。原创 2024-06-29 16:15:30 · 1583 阅读 · 0 评论 -
端到端的全人体关键点检测:手把手实现从YOLOPose到YOLOWhole
本文实现全人体133个关键点的联合检测。流程如下:1、数据集,COCO-whole, Halpe;下载好;2、模型搭建,先基于yolov8来检测人体姿态,17个点;3、迁移任务,17个点,把它拓展到133个点;4、优化133个点的模型;原创 2024-06-24 19:11:51 · 1607 阅读 · 1 评论 -
不翻墙安装yolov8环境下的RT-DETR并实现PCB表面缺陷检测
通过不用翻墙就能实现yolo平台的RT-DETR使用,并迁移学习PCB表面缺陷检测。原创 2024-06-24 19:06:22 · 1306 阅读 · 1 评论 -
RT-DETR那么火,如何使用它、如何改进它?热滚滚的使用攻略出炉了
RT-DETR作为新一代的旗舰DETR系列算法模型,使用它,并改造它,提升性能,这是我们所追求的。原创 2024-06-14 09:55:24 · 2569 阅读 · 3 评论 -
YOLO10:手把手使用以及检测XRay改进
v9还没整明白,v10又来了。而且还是打败天下无敌手的存在,连最近很火的RT-DETR都被打败了。那么,笑傲目标检测之林的v10又能持续多久呢?通过这次安装到最后的功能实现,可以明显感觉到yolo10简单的安装步骤,以及它强大的功能。原创 2024-06-05 20:11:11 · 3243 阅读 · 0 评论 -
ControlNet之黑白照片复原+上色
从最初的黑白模糊照片到现在的高清彩色照片的显著进步,这正是ControlNet技术强大之处的体现。它不仅代表了技术的飞跃,同时也象征着我们对清晰视觉体验的不懈追求。原创 2024-05-31 10:40:31 · 1481 阅读 · 0 评论 -
零基础学习图生图
有些情况下,无法用文字准确描述的时候,提示词的作用无法发挥出来,这个时候可以借助其他图的结构,来生成我们指定的图片内容,这就是图生图的原始思想。这个的作用是我们不用再手动绘画蒙版具体功能,而是可以通过其他软件来制造蒙版,完成更加细致的修改,然后在输入相对应的提示词,对蒙版区域内的内容进行修改,最好不要用纯色蒙版。局部重绘,字面意思一样,即通过鼠标画笔将局部像素抹掉。涂鸦功能,体现在:一个最好是纯白色背景的图片,然后使用鼠标选择画笔与颜色进行涂鸦绘画,然后通过提示词,即可生成与涂鸦内容相似的内容。原创 2024-05-29 17:42:55 · 918 阅读 · 0 评论 -
定制文生图:从零基础训练LoRA,生成可爱的热巴姐姐
LoRA模型(Low-Rank Adaptation)是一种轻量级的模型微调方法,特别适用于大型预训练模型的快速适应。 在Stable Diffusion模型中,LoRA模型通过引入低秩矩阵来修改预训练模型的参数,从而实现模型的快速适应和优化。花1分钟了解LoRA在做什么。我们收集了30张热巴的个人照,然后送入到一个微调模型中训练,以让文生图模型能够生成热巴照片。原创 2024-05-23 16:10:47 · 1603 阅读 · 0 评论 -
你想要的照片,AI都能帮你画出来:记录Stable Diffusion的力量
Stable Diffision火得一塌糊涂,作为开源阵营里文生图的典型代表,是跟闭源的Dall-E,midjourney分庭抗礼的利器。不体验一把,怎么能说自己是搞生成模型的呢?SD还有哪些地方可以挖掘和探索的呢?离市场应用还有多远。有待挖掘。原创 2024-04-23 13:05:16 · 1005 阅读 · 0 评论 -
T2I-Adapter: 让马良之神笔(扩散模型)从文本生成图像更加可控
大规模的text2image模型具有不可置信的生成能力,已经在学习复杂结构和高层语义上展现了超能力。但是,仅依赖文本提示还不够充分挖掘这些能力,特别是在灵活以及准确地控制下(例如颜色和结构)。在这篇文章中,作者尝试去发掘这种T2I模型隐性学习的能力,然后直接使用它们去控制更加有颗粒度的生成。特别地,作者提出学习简单的轻量级的T2I-Adapters去对齐模型内部的知识。原创 2023-12-20 15:09:05 · 3005 阅读 · 1 评论 -
工业异常检测:从前沿到落地
工业异常检测是一个比较古老的话题,从传统的图像处理到现在引入深度模型的深度视觉识别,也就短短十几年的时间。这样的提升主要体现在几个方面:1、检测能力越来越强大,从单一的异常检测到现在的多种类检测;2、模型越来越强大,从几个文件几张图片到现在大模型上万张图像。即使如此,在边缘GPU的加持下,深度模型取得了检测速度和检测精度的双平衡,这篇文章将从:1、原理解读,2、动手实践两个部分进行展开,恪守知行合一的原则,为有强迫症的读者带来酣畅的体验。主要对SimpleNet进行了原理解读,和效果分析。原创 2023-10-24 12:59:48 · 2815 阅读 · 3 评论 -
Latex如何插入图片
转载于:https://blog.youkuaiyun.com/ZLK961543260/article/details/72832570 latex排版之插入图片:在排版图片之前,个人认为不管用不用到,引入下面两个包:\usepackage{graphicx} \usepackage{subfigure}(1)插入单个图片,图片格式为png\begin{figure}[h]\center...转载 2018-07-26 15:13:24 · 104185 阅读 · 7 评论 -
深度学习系列之ANN
到此,ANN网络从最基础的单层感知器,到为深度网络作模板延伸的BP网络,将模型结构、参数训练、算法都举例讲解的很透彻,为下面的CNN网络的学习打下坚实的基础。(这个在线编辑器,体验太差了,好好写一篇长文章,想知道博客上与大家交流,转换过程太麻烦,所以直接贴图片) 到此,ANN网络从最基础的单层感知器,到为深度网络作模板延伸的BP网络,将模型结构、参数训练、算法都举例讲解的很透彻原创 2015-06-28 10:10:35 · 3778 阅读 · 0 评论 -
机器学习入门指引<一>
机器学习,作为门时髦、热门的计算机应用技术,特别是随着深度学习的流行,推动“大数据+深度模型”的模式,为人工智能和人机交互的发展提供巨大的空间。 和数据挖掘一样,利用大量的数据分析建立有效的模型以便提供分类或者决策支持,机器学习也是利用经典的算法(聚类,SVM,神经网络,深度学习等)建立数据模型,不同的是机器学习偏向于算法的设计;更直接的说,机器学习,就是一些建立模型进行数据分析的算法包原创 2014-10-28 09:09:49 · 1024 阅读 · 0 评论 -
SVM(支持向量机)详解
SVM1、支持向量机发展历史1963年,Vapnik在解决模式识别问题时提出了支持向量方法。起决定性作用的样本为支持向量1971年,Kimeldorf构造基于支持向量构建核空间的方法1995年,Vapnik等人正式提出统计学习理论。 通俗来讲,SVM是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,原创 2014-10-31 10:06:48 · 34148 阅读 · 2 评论 -
深度学习系列之CNN核心内容
DNN的背景DNN,deep neural network,近几年机器学习算法中崛起的旗舰方法,作为分类精度最高、处理高维大数据的算法,挽救了机器学习在半个世纪里发展缓慢的颓势,也为人工智能新领域的拓展起着重要作用,来看看最近一些IT巨头在深度学习领域中的开展的工作。2012年,《纽约时报》报道的google Brian项目,引起广泛关注,这个项目由机器学习领域大师级人物吴恩达和大规模计算机系原创 2015-06-28 15:06:15 · 2360 阅读 · 0 评论 -
实验:如何在YOLO8中添加PnP算法来实现Head Pose Estimation
YOLO8的集成度比较高,如何在简洁的代码中加入Head Pose的东西,不是一件简单的事情.这里介绍如何插入PnP算法实现头部姿态估计的代码?这里,我们使用了Kalman 滤波来消除跳跃的情况,让pose变得更加平滑.但是Kalman 滤波的学习暂时没有具体取探索.在评估学习中.。原创 2023-07-14 20:49:30 · 894 阅读 · 3 评论 -
探索基于300W-LP的3D人脸关键点检测
300WLP数据集提供来丰富的人脸线索,包括2D或3D的关键点信息,Head Angle和3DMM的参数等.它可以用于2/3D的人脸关键点检测,以及头部姿态检测等任务.这里,我们尝试去实现端到段的3D人脸关键点检测.期待好的结果!原创 2023-07-12 18:00:14 · 1231 阅读 · 0 评论