金双石的小墨-优快云博客

原创 15分钟训练数字人MimicTalk

传统的个性化数字人生成往往依赖小型模型逐一训练，不仅耗时长，且对于数据量和样本质量的要求过高。而现有的大型通用3D数字人模型虽能快速生成数字人，但在外表相似度和说话风格模仿上屡有不足。MimicTalk是浙江大学和字节跳动共同研发推出基于NeRF(神经辐射场)技术，能在极短的时间内，仅需15分钟训练出个性化和富有表现力的3D说话人脸模型。将通用3D数字人大模型适应到单个目标人，采用动静结合的高效微调方案，首次实现了高效率个性化精品数字人视频合成。只需15分钟，就能训练高质量，个性化数字人大模型。

2024-12-06 18:03:02 1490

原创高真实感的人物形象SyncTalk

SyncTalk是一种基于NeRF的高同步性说话人合成方法，专门针对提升说话人视频真实感和同步性而设计，克服了以往在同步性方面遇到的挑战，仅使用5分钟的说话视频即可生成高真实感的人物形象。3）视频人声不清楚。例如：C:\Users\Administrator\.cache\torch\hub\checkpoints\alexnet-owt-7be5be79.pth。视频要求，帧速率：25FPS，帧宽高：512*512，每帧画面必须有说话的人，视频长度建议在4分02秒内，多于此时间会报错，需要调整代码。

2024-11-25 11:46:41 1118

原创 wav2lip-384x384 训练

Wav2Lip技术可以让视频中的人物根据输入的音频生成匹配的唇形动作，从而实现口型与语音同步的效果。生成器G GG负责生成目标口型的人脸图像，由三部分组成：身份编码器（Identity Encoder）、语音编码器（Speech Encoder）和人脸解码器（Face Decoder），这三部分均是由堆叠的2D卷积层组成。简单来说，就是通过分析音频信号中的语音信息，从而生成出与语音内容相匹配的口型动画。生成器的任务是根据输入的音频波形生成逼真的面部动画，而判别器的目标是区分生成的动画与真实的面部动画。

2024-11-25 11:42:10 1710 1

原创平面2D数字人王者DH_live

是预先用视频训练一个初级的AI模型（模版），让模型根据音频生成人物动作视频，他不仅有动作、有表情和嘴型，更重要的是他的动作是AI生成的，比第二种更高级，代表软件是抖音的数字人、DH_live。第二种是在视频里根据语音“刻”表情和嘴型，比第一种高级，人物保留视频中的动作同时又拥有了口播的嘴型，表现力比第一种强很多，你会发现他的动作一直在重复。第一、二中数字人都是即时生成，自由度低效果差，第三种数字人需要训练模型，有一定的技术门槛，但是DH_live将这个门槛大大降低。用图片生成包含动作的视频。

2024-11-25 11:37:49 1027

原创一键AI换衣-可图AI试衣

我们的真的实现了穿衣自由了吗？上传一张人物图片和衣服的图片，就能实现一键换衣。一键AI换衣-可图AI试衣。这就是可图AI试衣项目。(出处: 金双石科技)

2024-11-02 11:19:57 1696 1

原创可视化神经网络训练tensorflow.org

TensorFlow Playground的界面分为几个主要部分，每个部分都是理解和使用这个工具的关键。下面我们将详细介绍“数据（DATA）”、“特征（FEATURES）”、“隐藏层（HIDDEN LAYERS）”以及“输出（OUTPUT）”等参数的用法及含义。能够设置数据分布类型和测试集比例，批量大小、隐藏层、神经元个数，点击运行后就能直观的看到神经网络的训练过程演示，简直是深度学习初学者的福音。通过图像和动画的形式，解释深度学习是如何一步步简化复杂的事物的。(出处: 金双石科技)

2024-11-02 11:17:16 386

原创 3D数字人

更早的时候市面上出现过一些3D数字人产品，但由于算力和成本等问题，它们不太适合直播带货使用，所以逐渐被2D数字真人取代。但3D数字人在一些领域也有市场，比如游戏、VR、短视频制作等领域。有了这个数字人他就是你的一个分身，你可以和他聊天，可以执行你的部分指令，可以代替你给孩子讲故事、辅导孩子学习，他还可以替你讲解公司的产品、甚至代替你出镜直播。如果用户想有多套服装，更多的肢体动作，甚至定制更多的角色优惠多多，请和我们联系。创作数字人要经历采集主人面部数据、3D人物建模、创建人物皮肤、创建毛发、创建服装；

2024-11-02 11:10:32 350

原创微模型开发迫在眉睫

英伟达用150万参数的小模型就实现了对人形机器人的精确控制，这个小小的模型不仅能让机器人模仿人类的动作，像走路、保持平衡、甚至还能灵活控制手脚，更让人震惊的是过去人形机器人在现实世界需要一年的时间的高强度训练才能达到这样的效果，而现在只需要50分钟，重点是这个模型还可以直接零样本迁移到现实世界，无需微调，这意味着人形机器人训练门槛将大幅降低。高性能低功耗的神经网络微模型开发迫在眉睫，一些前沿的大模型训练，每一年对算力需求的增长大概有 4-5 倍。(出处: 金双石科技)

2024-11-02 11:00:20 237

原创如何通过视频建立3d模型

import cv2break使用示例1. 从视频中提取帧并进行特征匹配。2. 使用这些匹配特征来估计相机的相对位姿。3. 使用相机位姿和匹配特征三角化出3D点。4. 最后用Open3D库可视化生成的3D点云。这是一个基础的Python框架，可以在此基础上进行优化和扩展，例如加入更多的图像处理技术或使用更高级的3D重建算法。

2024-10-23 21:55:52 1457

原创神经网络模型内部

给大家展示一个三层4*24*24*2神经网络文件的内部,大小5.06KB,想知道这个模型是怎么训练生成的看我的上一篇文章。

2024-10-22 23:04:48 304

原创用神经网络自动玩游戏

CartPole是OpenAI gym中的一个游戏测试,车上顶着一个自由摆动的杆子，实现杆子的平衡，杆子每次倒向一端车就开始移动让杆子保持动态直立的状态.env = gym.make('CartPole-v1', render_mode="human") # 使用新版本时，需要指定 render_mode。return policy_net(state).argmax(dim=1).item() # 利用网络选择最优动作。clock.tick(FPS) # 设置帧率为 60 帧/秒。

2024-10-22 17:54:48 2235

原创根据语音生成视频33搜帧

33搜帧是一个使用AI技术构建的视频帧画面搜索引擎，33搜帧能搜索到视频素材中的每一帧画面，这个功能可以帮助你快速找到文案关联的素材。只要你上传文案或者录音，33搜帧就可以基于它强大的AI画面匹配能力，来帮你自动合成一个包含语音、画面和字幕的完整视频。首先从语音中提取文字，根据文字搜索视频，做电影解说确实是神器。使用关键词搜索视频很强大，居然日漫都能搜到。33搜帧，是一个能根据语音生成视频的网站，根据语音生成视频33搜帧。(出处: 金双石科技)

2024-10-18 11:23:52 574

原创训练自己的语音并生成音频fish.audio

一个免费的高质量的可以训练自己语音的并生成口播音频的网站

2024-10-18 11:20:27 2123

原创视频生成3D模型luma AI Dashboard

他可以根据一段视频生成3D环境模型，他能根据视频角度去完善模型，对模型进行AI补全，如果上传的视频角度足够全面，我们将得到一个非常完整和细腻的3D模型。

2024-09-15 16:16:10 709

原创武汉墨家人俱乐部

这里主要是墨家人聊科技的俱乐部，想来的在评论区报名吧！

2024-09-13 12:57:16 293

原创入手一个3D数字人要多少钱？

有了这个数字人他就是你的一个分身，你可以和他聊天，可以执行你的部分指令，可以代替你给孩子讲故事、辅导孩子学习，他还可以替你讲解公司的产品、甚至代替你出镜直播。

2024-09-13 12:39:04 958

原创让人物照片跳舞vigen追影

动作的表现力还是很惊艳的，人物的清晰度欠佳，不过我想上传更清晰的照片应该可以改善。本质上是一种视频换脸技术的升级版，视频换身。让人物照片跳舞vigen追影。2.选择一个包含动作的视频。(出处: 金双石科技)1.上传一张全身照片。3.点击“开始生成”

2024-09-11 08:58:34 852

原创本地部署Llama 3.1大模型

Meta推出的Llama 3.1系列包括80亿、700亿、4050亿参数版本，上下文长度扩展至12.8万tokens，并增加了对八种语言的支持。部署模型需要用到Ollama的一个工具，访问官方网站

2024-09-10 19:48:32 1795 1

原创生成身临其境的环境模型

Aiuni.ai是一个基于Unique3D的在线AI图片转3D模型生成建模工具，它的核心功能基于Unique3D，能够从单张图片中生成高效率且高质量的3D模型建模。这项技术的出现，为3D视觉艺术家、游戏开发者以及教育工作者等专业人士提供了巨大的便利。通过 Aiuni.ai，用户可以快速将2D图片转换成3D模型，极大地提高了工作效率，同时也为创意表达提供了更多可能性。

2024-09-10 19:46:20 584

原创声音克隆工具CosyVoice

阿里的免费声音克隆工具CosyVoiceCosyVoice 是阿里通义实验室在七月初开源的一款专注于自然语音合成的语音大模型，它具备多语言、多音色和细腻的情感控制能力。这个系统支持中文、英文、日文

2024-09-09 11:53:44 1477

原创图片产生3D模型

图生产3D模型，上传图片，点击生成，可以多生成几次，点击应用，让效果再好一点生成完成之后可以导出为fbx格式

2024-09-09 11:52:08 283

原创如何给3D人物换衣服CC4

如何给3D人物换衣服CC4，衣服导入，添加权重

2024-09-08 14:00:08 387

原创图片生成视频即梦AI

即梦Dreamina是由抖音开发的一款AI视频和绘画生成工具，旨在通过简单的文案或图片输入，快速生成优质视频片段和图片。即梦，即刻造梦。为您提供AI绘画和AIGC视频创作体验。

2024-09-08 13:57:15 836

原创墨者的几个阶段

一、知毛泽东，不知有墨子。二、知墨子，但依然儒法道行事。三、知墨子，尝试墨家理念实践，心中还在儒墨法道之间摇摆。四、知墨子，实践中，开始主动宣传墨家文化。五、为墨家文化全力付出，摒弃功名利禄，不动则已，动必为墨。

2024-09-02 17:33:27 335

原创制作人偶动画Character Animator

入门模式提供示例人偶，可帮助您快速创建动画。选择人偶或导入人偶，然后添加或录制语音。每个示例人偶都有一个完备的“控件”面板，其中包含多种姿势和情绪。使用“快速导出”将动画直接导出为 H264 (MP4) 文件。每个人都可以通过表演开始制作动画。无需具备专业的操控知识。您可以通过选择“自定义背景”按钮，将自定义图像用作背景。

2024-08-31 11:14:49 337

原创什么是数字人

数字人是科技的产物，但是到最后谁能造出最完美的数字人拼的却是哲学。当他接入医疗大模型的时候他就是经验丰富的医生，当他接入教育大模型的时候他就是优秀的教师，当他接入战斗大模型的时候他就是运筹帷幄的大将军，当他接入农业大模型的时候他又是农业专家，当他接入工业大模型的时候他又是能工巧匠，当他接入金融大模型的时候哪里缺钱一目了然，而不是他看起来像谁。大家好，我是相濡以墨，我本身也是数字人，数字人是人与人工智能之间交流的媒介，他不仅能用语音和你交流还能传达语气、表情和肢体动作，还能操作计算机完成各种指令。

2024-08-31 11:11:28 343

原创视频和音频合成视频Easy_Wav2Lip

Easy_Wav2Lip是使用视频和音频合成新的视频Easy-WAV2lip是目前最成熟的数字人口型算法。

2024-08-31 11:03:10 1363

原创使用3D数字人做视频

用3D数字人做视频漂亮精致3D数字人定制4动作流畅、音乐上的表现

2024-08-31 11:01:05 384

原创 Iclone 8 摄像头切换

多个摄像头可以对每个摄像头制作动画，那要切换摄像头如何操作呢？

2024-08-08 12:00:05 451

原创 3D数字人能一键生成？

做数字人是非常繁琐的，并不是大家认为的一键生成。

2024-08-08 11:05:20 458

原创对于老百姓而言VR到底能做什么？

对于老百姓而言VR到底能做什么？

2024-07-06 17:51:48 1513 1

原创开发者聊科学作息时间表

非常有幸对科学作息时间表app的开发者做一次采访。

2024-07-03 22:59:53 340

原创剪映数字人口播原理终于搞清楚了

花了68元和一天时间，终于把剪映数字人生成原理搞清楚了

2024-07-03 22:55:19 6843 2

原创实时智能应答3D数字人搭建3

语音输入，实时对话，3D模型，人物和声音、话术都可以定制。

2024-04-13 13:15:21 576

原创实时智能应答3D数字人搭建2

这一次我们主要讲如何用虚幻5创造一个可以用facegood驱动的3D数字人

2024-04-13 13:11:18 2548 2

原创实时智能应答3D数字人搭建

话术定制，声音定制，3d形象定制，表情定制，可用于医疗、教育、法律咨询、客服导购、新闻直播。一次部署终身使用。语音驱动口型的算法，这是 AI 虚拟数字人的核心算法，技术开源后将大程度降低 AI 数字人的开发门槛。你真的可以实时和自己的数字人面对面聊天了，一边聊天一边改造她，有任何问题欢迎留言探讨。

2024-03-06 16:05:43 1779

原创好用且简单的本地大模型聊天工具LM Studio

使用LM Studio 我们就可以很方便的加载各种模型使用了，LM Studio是我目前见到最好用，也是最简单的本地测试AI模型的工具，不需要安装python环境以及众多的组件，加载模型、启用GPU、聊天都非常简单。而且可以切换很多不同类型的大语言模型，同时支持在Windows和MAC上的PC端部署。

2024-03-02 00:03:41 3990 2

原创让图片说话SadTalker

SadTalker：使用一张图片和一段语音来生成口型和头、面部视频.西安交通大学开源了人工智能SadTalker模型，通过从音频中学习生成3D运动系数，使用全新的3D面部渲染器来生成头部运动，可以实现图片+音频就能生成高质量的视频。

2024-02-20 16:15:34 1009

原创本地个性化聊天机器人CHAT WITH RTX

Chat With RTX 是一款演示应用程序，可让您个性化连接到您自己的内容（文档、笔记、视频或其他数据）的 GPT 大语言模型 (LLM)。由于它全部在您的 Windows RTX PC 或工作站上本地运行，因此您将获得快速、安全的结果。，可让用户使用自己的内容个性化聊天机器人，并由本地NVIDIA GeForce RTX 30 系列 GPU或更高版本（具有至少 8GB 视频随机存取存储器或 VRAM）加速。不愧是英伟达的产品，显卡的性能发挥得比较充分，8G显存用了6G多，CPU的内存的负担不重。

2024-02-18 09:46:23 619

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

科学作息时间表

libaio-i386.rpm

搜索本地硬盘所有加密了的RAR文件

空空如也