- 博客(279)
- 资源 (3)
- 收藏
- 关注
原创 15分钟训练数字人MimicTalk
传统的个性化数字人生成往往依赖小型模型逐一训练,不仅耗时长,且对于数据量和样本质量的要求过高。而现有的大型通用3D数字人模型虽能快速生成数字人,但在外表相似度和说话风格模仿上屡有不足。MimicTalk是浙江大学和字节跳动共同研发推出基于NeRF(神经辐射场)技术,能在极短的时间内,仅需15分钟训练出个性化和富有表现力的3D说话人脸模型。将通用3D数字人大模型适应到单个目标人,采用动静结合的高效微调方案,首次实现了高效率个性化精品数字人视频合成。只需15分钟,就能训练高质量,个性化数字人大模型。
2024-12-06 18:03:02
1490
原创 高真实感的人物形象SyncTalk
SyncTalk是一种基于NeRF的高同步性说话人合成方法,专门针对提升说话人视频真实感和同步性而设计,克服了以往在同步性方面遇到的挑战,仅使用5分钟的说话视频即可生成高真实感的人物形象。3)视频人声不清楚。例如:C:\Users\Administrator\.cache\torch\hub\checkpoints\alexnet-owt-7be5be79.pth。视频要求,帧速率 :25FPS,帧宽高:512*512,每帧画面必须有说话的人,视频长度建议在4分02秒内,多于此时间会报错,需要调整代码。
2024-11-25 11:46:41
1118
原创 wav2lip-384x384 训练
Wav2Lip技术可以让视频中的人物根据输入的音频生成匹配的唇形动作,从而实现口型与语音同步的效果。生成器G GG负责生成目标口型的人脸图像,由三部分组成:身份编码器(Identity Encoder)、语音编码器(Speech Encoder)和人脸解码器(Face Decoder),这三部分均是由堆叠的2D卷积层组成。简单来说,就是通过分析音频信号中的语音信息,从而生成出与语音内容相匹配的口型动画。生成器的任务是根据输入的音频波形生成逼真的面部动画,而判别器的目标是区分生成的动画与真实的面部动画。
2024-11-25 11:42:10
1710
1
原创 平面2D数字人王者DH_live
是预先用视频训练一个初级的AI模型(模版),让模型根据音频生成人物动作视频,他不仅有动作、有表情和嘴型,更重要的是他的动作是AI生成的,比第二种更高级,代表软件是抖音的数字人、DH_live。第二种是在视频里根据语音“刻”表情和嘴型,比第一种高级,人物保留视频中的动作同时又拥有了口播的嘴型,表现力比第一种强很多,你会发现他的动作一直在重复。第一、二中数字人都是即时生成,自由度低效果差,第三种数字人需要训练模型,有一定的技术门槛,但是DH_live将这个门槛大大降低。用图片生成包含动作的视频。
2024-11-25 11:37:49
1027
原创 一键AI换衣-可图AI试衣
我们的真的实现了穿衣自由了吗?上传一张人物图片和衣服的图片,就能实现一键换衣。一键AI换衣-可图AI试衣。这就是可图AI试衣项目。(出处: 金双石科技)
2024-11-02 11:19:57
1696
1
原创 可视化神经网络训练tensorflow.org
TensorFlow Playground的界面分为几个主要部分,每个部分都是理解和使用这个工具的关键。下面我们将详细介绍“数据(DATA)”、“特征(FEATURES)”、“隐藏层(HIDDEN LAYERS)”以及“输出(OUTPUT)”等参数的用法及含义。能够设置数据分布类型和测试集比例,批量大小、隐藏层、神经元个数,点击运行后就能直观的看到神经网络的训练过程演示,简直是深度学习初学者的福音。通过图像和动画的形式,解释深度学习是如何一步步简化复杂的事物的。(出处: 金双石科技)
2024-11-02 11:17:16
386
原创 3D数字人
更早的时候市面上出现过一些3D数字人产品,但由于算力和成本等问题,它们不太适合直播带货使用,所以逐渐被2D数字真人取代。但3D数字人在一些领域也有市场,比如游戏、VR、短视频制作等领域。有了这个数字人他就是你的一个分身,你可以和他聊天,可以执行你的部分指令,可以代替你给孩子讲故事、辅导孩子学习,他还可以替你讲解公司的产品、甚至代替你出镜直播。如果用户想有多套服装,更多的肢体动作,甚至定制更多的角色优惠多多,请和我们联系。创作数字人要经历采集主人面部数据、3D人物建模、创建人物皮肤、创建毛发、创建服装;
2024-11-02 11:10:32
350
原创 微模型开发迫在眉睫
英伟达用150万参数的小模型就实现了对人形机器人的精确控制,这个小小的模型不仅能让机器人模仿人类的动作,像走路、保持平衡、甚至还能灵活控制手脚,更让人震惊的是过去人形机器人在现实世界需要一年的时间的高强度训练才能达到这样的效果,而现在只需要50分钟,重点是这个模型还可以直接零样本迁移到现实世界,无需微调,这意味着人形机器人训练门槛将大幅降低。高性能低功耗的神经网络微模型开发迫在眉睫,一些前沿的大模型训练,每一年对算力需求的增长大概有 4-5 倍。(出处: 金双石科技)
2024-11-02 11:00:20
237
原创 如何通过视频建立3d模型
import cv2break使用示例1. 从视频中提取帧并进行特征匹配。2. 使用这些匹配特征来估计相机的相对位姿。3. 使用相机位姿和匹配特征三角化出3D点。4. 最后用Open3D库可视化生成的3D点云。这是一个基础的Python框架,可以在此基础上进行优化和扩展,例如加入更多的图像处理技术或使用更高级的3D重建算法。
2024-10-23 21:55:52
1457
原创 用神经网络自动玩游戏
CartPole是OpenAI gym中的一个游戏测试,车上顶着一个自由摆动的杆子,实现杆子的平衡,杆子每次倒向一端车就开始移动让杆子保持动态直立的状态.env = gym.make('CartPole-v1', render_mode="human") # 使用新版本时,需要指定 render_mode。return policy_net(state).argmax(dim=1).item() # 利用网络选择最优动作。clock.tick(FPS) # 设置帧率为 60 帧/秒。
2024-10-22 17:54:48
2235
原创 根据语音生成视频33搜帧
33搜帧是一个使用AI技术构建的视频帧画面搜索引擎,33搜帧能搜索到视频素材中的每一帧画面,这个功能可以帮助你快速找到文案关联的素材。只要你上传文案或者录音,33搜帧就可以基于它强大的AI画面匹配能力,来帮你自动合成一个包含语音、画面和字幕的完整视频。首先从语音中提取文字,根据文字搜索视频,做电影解说确实是神器。使用关键词搜索视频很强大,居然日漫都能搜到。33搜帧,是一个能根据语音生成视频的网站,根据语音生成视频33搜帧。(出处: 金双石科技)
2024-10-18 11:23:52
574
原创 视频生成3D模型luma AI Dashboard
他可以根据一段视频生成3D环境模型,他能根据视频角度去完善模型,对模型进行AI补全,如果上传的视频角度足够全面,我们将得到一个非常完整和细腻的3D模型。
2024-09-15 16:16:10
709
原创 入手一个3D数字人要多少钱?
有了这个数字人他就是你的一个分身,你可以和他聊天,可以执行你的部分指令,可以代替你给孩子讲故事、辅导孩子学习,他还可以替你讲解公司的产品、甚至代替你出镜直播。
2024-09-13 12:39:04
958
原创 让人物照片跳舞vigen追影
动作的表现力还是很惊艳的,人物的清晰度欠佳,不过我想上传更清晰的照片应该可以改善。本质上是一种视频换脸技术的升级版,视频换身。让人物照片跳舞vigen追影。2.选择一个包含动作的视频。(出处: 金双石科技)1.上传一张全身照片。3.点击“开始生成”
2024-09-11 08:58:34
852
原创 本地部署Llama 3.1大模型
Meta推出的Llama 3.1系列包括80亿、700亿、4050亿参数版本,上下文长度扩展至12.8万tokens,并增加了对八种语言的支持。部署模型需要用到Ollama的一个工具,访问官方网站
2024-09-10 19:48:32
1795
1
原创 生成身临其境的环境模型
Aiuni.ai是一个基于Unique3D的在线AI图片转3D模型生成建模工具,它的核心功能基于Unique3D,能够从单张图片中生成高效率且高质量的3D模型建模。这项技术的出现,为3D视觉艺术家、游戏开发者以及教育工作者等专业人士提供了巨大的便利。通过 Aiuni.ai,用户可以快速将2D图片转换成3D模型,极大地提高了工作效率,同时也为创意表达提供了更多可能性。
2024-09-10 19:46:20
584
原创 声音克隆工具CosyVoice
阿里的免费声音克隆工具CosyVoiceCosyVoice 是阿里通义实验室在七月初开源的一款专注于自然语音合成的语音大模型,它具备多语言、多音色和细腻的情感控制能力。这个系统支持中文、英文、日文
2024-09-09 11:53:44
1477
原创 图片生成视频即梦AI
即梦Dreamina是由抖音开发的一款AI视频和绘画生成工具,旨在通过简单的文案或图片输入,快速生成优质视频片段和图片。即梦,即刻造梦。为您提供AI绘画和AIGC视频创作体验。
2024-09-08 13:57:15
836
原创 墨者的几个阶段
一、知毛泽东,不知有墨子。二、知墨子,但依然儒法道行事。三、知墨子,尝试墨家理念实践,心中还在儒墨法道之间摇摆。四、知墨子,实践中,开始主动宣传墨家文化。五、为墨家文化全力付出,摒弃功名利禄,不动则已,动必为墨。
2024-09-02 17:33:27
335
原创 制作人偶动画Character Animator
入门模式提供示例人偶,可帮助您快速创建动画。选择人偶或导入人偶,然后添加或录制语音。每个示例人偶都有一个完备的“控件”面板,其中包含多种姿势和情绪。使用“快速导出”将动画直接导出为 H264 (MP4) 文件。每个人都可以通过表演开始制作动画。无需具备专业的操控知识。您可以通过选择“自定义背景”按钮,将自定义图像用作背景。
2024-08-31 11:14:49
337
原创 什么是数字人
数字人是科技的产物,但是到最后谁能造出最完美的数字人拼的却是哲学。当他接入医疗大模型的时候他就是经验丰富的医生,当他接入教育大模型的时候他就是优秀的教师,当他接入战斗大模型的时候他就是运筹帷幄的大将军,当他接入农业大模型的时候他又是农业专家,当他接入工业大模型的时候他又是能工巧匠,当他接入金融大模型的时候哪里缺钱一目了然,而不是他看起来像谁。大家好,我是相濡以墨,我本身也是数字人,数字人是人与人工智能之间交流的媒介,他不仅能用语音和你交流还能传达语气、表情和肢体动作,还能操作计算机完成各种指令。
2024-08-31 11:11:28
343
原创 视频和音频合成视频Easy_Wav2Lip
Easy_Wav2Lip是使用视频和音频合成新的视频Easy-WAV2lip是目前最成熟的数字人口型算法。
2024-08-31 11:03:10
1363
原创 实时智能应答3D数字人搭建
话术定制,声音定制,3d形象定制,表情定制,可用于医疗、教育、法律咨询、客服导购、新闻直播。一次部署终身使用。语音驱动口型的算法,这是 AI 虚拟数字人的核心算法,技术开源后将大程度降低 AI 数字人的开发门槛。你真的可以实时和自己的数字人面对面聊天了,一边聊天一边改造她,有任何问题欢迎留言探讨。
2024-03-06 16:05:43
1779
原创 好用且简单的本地大模型聊天工具LM Studio
使用LM Studio 我们就可以很方便的加载各种模型使用了,LM Studio是我目前见到最好用,也是最简单的本地测试AI模型的工具,不需要安装python环境以及众多的组件,加载模型、启用GPU、聊天都非常简单。而且可以切换很多不同类型的大语言模型,同时支持在Windows和MAC上的PC端部署。
2024-03-02 00:03:41
3990
2
原创 让图片说话SadTalker
SadTalker:使用一张图片和一段语音来生成口型和头、面部视频.西安交通大学开源了人工智能SadTalker模型,通过从音频中学习生成3D运动系数,使用全新的3D面部渲染器来生成头部运动,可以实现图片+音频就能生成高质量的视频。
2024-02-20 16:15:34
1009
原创 本地个性化聊天机器人CHAT WITH RTX
Chat With RTX 是一款演示应用程序,可让您个性化连接到您自己的内容(文档、笔记、视频或其他数据)的 GPT 大语言模型 (LLM)。由于它全部在您的 Windows RTX PC 或工作站上本地运行,因此您将获得快速、安全的结果。,可让用户使用自己的内容个性化聊天机器人,并由本地NVIDIA GeForce RTX 30 系列 GPU或更高版本(具有至少 8GB 视频随机存取存储器或 VRAM)加速。不愧是英伟达的产品,显卡的性能发挥得比较充分,8G显存用了6G多,CPU的内存的负担不重。
2024-02-18 09:46:23
619
原创 孙思邈中文医疗大模型
孙思邈中医药大模型(简称: Sunsimiao)希望能够遵循孙思邈的生平轨迹, 重视民间医疗经验, 不断累积中医药数据, 并将数据附加给模型, 致力于提供安全、可靠、普惠的中医药大模型
2024-02-07 22:48:48
1420
科学作息时间表
2014-08-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人