- 博客(8)
- 收藏
- 关注
原创 GitHub:Wav2Lip AI对口型 项目部署
在这项工作中,我们研究的问题是嘴唇同步一个说话的人脸视频的任意身份,以匹配目标语音片段。目前的作品擅长在静态图像或训练阶段看到的特定人的视频上产生准确的嘴唇运动。然而,它们无法准确地变形动态、无约束的说话人脸视频中任意身份的嘴唇运动,导致视频的重要部分与新音频不同步。我们找出了与此相关的主要原因,并通过向强大的假唱鉴别器学习来解决这些问题。接下来,我们提出了新的、严格的评估基准和度量,以准确地测量无约束视频中的嘴唇同步。
2025-01-03 20:39:52
1517
原创 GitHub:video-retalking AI对口型 项目部署
video-retalking:我们提出了VideoReTalking,这是一个新的系统,可以根据输入音频编辑现实世界中正在说话的头部视频的面部,即使有不同的情绪,也可以产生高质量和唇同步的输出视频。
2024-11-27 20:54:34
2294
原创 人工智能医疗方向VinDr-CXR胸部X射线14种疾病识别YOLOv8
本篇即针对医学影像中的胸部X射线部分进行研究,利用公开数据集+开源算法YOLOv8来训练模型,模拟医疗胸X射线方向实用场景。
2024-06-07 11:00:53
2549
2
原创 无人售货机、无人零售店场景下,计算机视觉算法:YOLOv8实现方案
随着人工智能技术的快速发展,催生了无人售货机、无人零售店等新型零售模式,利用计算机视觉算法和RFID电子标签,完成扫码开门、商品识别、自助结账等一系列流程,大大简化了购物流程,提高了顾客线下购物体验;文章中我们重点研究计算机视觉部分,利用公开数据集+开源算法YOLOv8,训练商品识别模型,模拟线下无人零售场景。通过测试可以看出,模型已经可以识别大部分商品,虽然只有30次epoch训练,但耗时仍旧高达20个小时,调试成本比较昂贵,并且单纯提高epoch已很难提升精度,需要尝试调参、数据增强;
2024-04-21 16:56:18
3048
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅