
小爽的爱尔实习
文章平均质量分 88
每天进步一点点~希望实习这一年可以有一些收获!
___________!
这个作者很懒,什么都没留下…
展开
-
9月4日工作汇报ppt
首先是,数字人的产业应用,然后,是和换脸技术相关的。最后,汇报一下实验的情况。原创 2023-09-01 11:55:32 · 237 阅读 · 1 评论 -
wav2lip论文学习1.0(待完善)
定义一个生成器gen_model、唇形同步判别器、质量判别器(对应的代码没有找到)训练完成后,可以将模型参数保存到磁盘,用于模型推理。该wav2lip模型几乎是万能的,适用于任何人脸、任何语音、任何语言,对任意视频都能达到很高的准确率,可以无缝地与原始视频融合,还可以用于转换动画人脸,并且导入合成语音也是可行的。不仅可以让蒙娜丽莎像朱广权一样播报新闻,还可以让宋代诗人穿越千年念诗、让你的idol对你说出任何你想听的情话等等。大家可以上传自己准备的视频和音频, 合成任意想要的逼真的配音视频。原创 2023-08-24 11:15:32 · 771 阅读 · 2 评论 -
wav2lip模型复现
2020年,来自印度海德拉巴大学和英国巴斯大学的团队,在ACM MM2020发表了的一篇论文 《A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild 》,在文章中,他们提出一个叫做Wav2Lip的AI模型,只需要一段人物视频和一段目标语音,就能够让音频和视频合二为一,人物嘴型与音频完全匹配。1.网上说,wav2lip使用英文音频的测试效果比中文的好,中文音频的测试中牙齿部分还原度稍差,对中文的支持不够友好。原创 2023-08-24 11:00:12 · 1522 阅读 · 3 评论 -
8月28日工作汇报ppt
零基础的数字人调研报告,主要介绍相关技术实现。数字人是典型多技术的综合产物,因此,道阻且长。原创 2023-08-20 12:29:27 · 500 阅读 · 0 评论 -
数字人调研2.0
而目前存在的大多数虚拟数字人自身是不具备思考的能力,与外界交互绝大多数是通过人操纵实现的交互,比如虚拟主播之类。目前通过人工智能技术提供的交互能力,其能力与人力幼童相比也是非常初级的。主要是因为目前人工智能的智能水平还比较低,能做的事情很有限。这一点,用过智能音箱的朋友应该都深有感触,无论是小度,还是小爱同学、天猫精灵,都只能对部分特定句式的问题给出有效回答。数字人白皮书中对虚拟数字人是否必须满足其所述三项特征的描述上用词并不直接——“宜具备”。原创 2023-08-16 17:29:29 · 296 阅读 · 1 评论 -
数字人调研1.0
数字人是指数字形态的人。一方面,数字人离不开3d建模、图像渲染、多模态生成等技术,只能生活在数字世界里。但同时,数字人在表情、动作、行为上都和真人非常相似。特别是,像Code Miko那种高保真类的数字人。Code Miko数字人和人工智能虽然都涉及到人类智能的模拟,但是两者在本质、应用场景和技术实现等方面都有所不同。未来,随着人工智能和数字人技术的不断发展,它们也将在不同的领域和应用中发挥出各自的优势。数字人与人工智能在一定程度上是相互依存和相互促进的关系。原创 2023-08-15 17:26:33 · 255 阅读 · 1 评论 -
tts-vue文本生成语音工具的下载和使用
tts-vue是一款开源免费的微软语音合成工具,使用 Electron + Vue + ElementPlus + Vite 构建。tts-vue 是一个完全免费的文字转语音电脑软件;软件不仅支持 Windows 、也支持 macOS。原创 2023-08-14 11:11:46 · 4096 阅读 · 0 评论