学术速递4 | 谷歌混合精度量化 | 清华语音人脸视频生成 | 谭铁牛步态识别对抗攻击 | 北大点云数据

最新推荐文章于 2025-02-12 18:03:11 发布

原创

最新推荐文章于 2025-02-12 18:03:11 发布 · 1.6k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #自动驾驶 #深度学习 #计算机视觉

几篇近期的paper：

清华：音频驱动的具有自然头部姿势的语音人脸视频生成
谭铁牛：对步态识别的时间稀疏对抗性攻击
Google Brain：无需专用硬件加速的混合精度量化
北大：SemanticPOSS-具有大量动态实例的点云数据集

1. 清华：音频驱动的具有自然头部姿势的语音人脸视频生成

类似于AI虚拟主播，根据声音生成视频，嘴型和头的姿态越来越自然……Fake News批量化生产指日可待【狗头】，先看一段视频，不是本文的Demo哈，是一张图片生成视频的：

语音人脸视频生成Demo

AI视频生成

标题：Audio-driven Talking Face Video Generation with Natural Head Pose
机构：清华、中科大、浙大
作者：Ran Yi, Zipeng Ye, Juyong Zhang, Hujun Bao, Yong-Jin Liu

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

arXivDaily

关注关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【ICLR 2025】详细解读字节跳动视频生成论文 CyberHost: Taming Audio-driven Avatar Diffusion Model with Region Codebook

沉迷单车的追风少年

09-22

1876

轰轰烈烈的ICLR 2025拉开序幕，由于是Open Review机制，很多最新的好作品都要被公开评审。博主最近会陆续介绍一些看到有趣的Diffusion相关的论文。这篇博客介绍来自字节跳动的可控视频生成相关论文《CyberHost: Taming Audio-driven Avatar Diffusion Model with Region Codebook Attention》。

目前缺少用于语义分割的 3D LiDAR 数据吗？关于三维点云数据集和方法的调查

weixin_43823175的博客

03-04

1823

目前缺少用于语义分割的 3D LiDAR 数据吗？关于三维点云数据集和方法的调查原文 Are We Hungry for 3D LiDAR Data for Semantic Segmentation? A Survey of Datasets and Methods 论文地址 https://arxiv.org/abs/2006.04307 摘要 3D 语义分割是机器人和自动驾驶应用的一项基本任务。最近的工作主要集中在使用深度学习技术上，而开发精细注释的 3D LiDAR 数据集是极其劳动密集型的，并

参与评论您还未登录，请先登录后发表或查看评论

仅用语音，AI就能“脑补”你的脸！ | 技术头条

AI科技大本营

04-05

2585

点击上方↑↑↑蓝字关注我们~「2019 Python开发者日」，购票请扫码咨询 ↑↑↑作者 | Wav2pix 研究团队译者 | 刘畅编辑 | Jane出品 | AI科...

论文阅读: [3d]Audio-driven Talking Face Video Generation with Learning-based Personalized Head Pose

landing_guy_的博客

07-14

1958

介绍使用3d人脸做生成的工作

Audio-driven-TalkingFace-HeadPose:“基于学习的个性化头姿势的音频驱动的有声面部视频生成”的代码

05-02

基于学习的个性化头姿势的音频驱动的会说话的面部视频生成 我们为arxiv论文“基于学习的个性化头部姿势的音频驱动的有声面部视频生成”（）提供PyTorch实施。请注意，此代码受专利保护。仅出于您的大学（研究机构）的研究目的。如果您对商业目的/营利目的感兴趣，请联系刘教授（通讯作者，电子邮件：）。我们提供了一个演示视频（请在此页面中搜索“ Talking Face”，然后单击“演示视频”按钮）。我们的拟议框架先决条件 Linux或macOS NVIDIA GPU 的Python 3 的MATLAB 入门安装您可以创建一个虚拟环境，并通过以下方式安装所有依赖项： pip install -r requirements.txt 下载预训练的模型包括预训练的通用模型和面部重建，身份特征提取等所需的模型从（提取代码：usdm）或下载，然后复制到相应的子文件夹（

混合精度量化模型指标模拟计算（BitOps与参数规模）

qq_39068200的博客

03-17

1216

本文提取了LIMPQ算法源码，实现了混合精度量化模型的BitOps和参数规模的计算。

大模型训练之计算量和内存优化篇------混合精度/量化QAT、QAF、PTQ/剪枝/知识蒸馏/FSDP&cpu offload/Gradient Checkpointing

weixin_36378508的博客

05-24

5633

大模型训练显存和计算量优化

基于MATLAB的人脸识别研究

TuTu998的博客

09-01

1888

基于MATLAB的人脸识别研究【摘要】深入分析了主成分分析（Principal Component Analysis，PCA）方法的基本原理，PCA方法最显著的优点是能用低维特征向量来估计原始样本，基于此特点将它用来实现对人脸的识别。此外本文还深入分析了PCA中遇到的特征值选择和距离准则的选取问题。【关键词】MATLAB；数字图像处理；人脸识别 1.引...

第四届国际步态识别竞赛HID2023已经启动，欢迎报名

u010670887的博客

02-25

1483

欢迎参加第四届步态识别竞赛！

走进CSIG|文档图像大模型在智能文档处理领域中的应用

热门推荐

02-04

3万+

来识别图像中的文本。经过详细的分析发现，GPT4-V也存在着很多问题，比如中文，大家在用的时候会发现中文不管是手写体还是印刷体，GPT4-V识别出来会产生严重的幻觉，经常会输出一大段不存在的文字，并且对于手写公式的识别效果也不是特别好。在手写识别这样的密集文档，以及几何图形和文字结合这种教育场景的文字识别和理解GPT4-V也可以取得较好的结果，对于这些教育场景，传统的文档处理方法需要多个模型进行缝合，而且必须针对特定的场景做定制，这种方法的泛化能力非常有限，从这个角度来看GPT4-V是非常惊艳的。

基于MATLAB的人脸识别系统[创新元素，界面GUI]

m0_59817540的博客

08-10

1151

第一章绪论本章提出了本文的研究背景及应用前景。首先阐述了人脸图像识别意义；然后介绍了人脸图像识别研究中存在的问题；接着介绍了自动人脸识别系统的一般框架构成；最后简要地介绍了本文的主要工作和章节结构。1.1 研究背景自70年代以来.随着人工智能技术的兴起.以及人类视觉研究的进展.人们逐渐对人脸图像的机器识别投入很大的热情，并形成了一个人脸图像识别研究领域，.这一领域除了它的重大理论价值外，也极具...

模型部署——RKNN模型量化精度分析及混合量化提高精度（附代码）

qq_40280673的博客

02-26

1万+

由于在RKNN模型构建的过程中，对模型进行了量化，会无可避免的造成精度损失，使用精度分析接口，可以查看每一层的精度损失情况。通过混合量化，将某些损失较大的层，从量化层转为非量化层，从而提高模型的精度。

【2025】点云中基于语义的任务最新综述

qq_45775465的博客

07-24

1092

点云中基于语义的任务主要分为了传统任务和新兴任务，该github仓库对各类任务的最新论文及对应的开源代码进行了整理：

【论文阅读】Are We Hungry for 3D LiDAR Data for Semantic Segmentation? A Survey of Datasets and Methods

博客标题不能为空我也没办法

06-01

501

激光SLAM的综述，介绍了主流的方法以及常用的激光数据集

论文阅读：CENET: TOWARD CONCISE AND EFFICIENT LIDAR SEMANTIC SEGMENTATIONFOR AUTONOMOUS DRIVING

qq_53086461的博客

10-17

1454

cenet

2024 CyberHost 语音+图像-视频

学术速递4 | 谷歌混合精度量化 | 清华语音人脸视频生成 | 谭铁牛步态识别对抗攻击 | 北大点云数据

​几篇近期的paper：

1. 清华：音频驱动的具有自然头部姿势的语音人脸视频生成

几篇近期的paper：