
人工智能
文章平均质量分 78
一些AI相关技术栈以及方法论的知识点记录
Cherry Xie
喜欢学习,只是因为知识能让我更好地理解与处理遇到的事情。技术上比较全面,具备小程序、全栈、web3、数据分析、人工智能的开发经验。目前从事人工智能相关工作,欢迎知识理解上的交流。
展开
-
清华与智谱联合发布TTS模型GLM-4-Voice,支持情绪、语气控制,多语言,实时效果很不错~
GLM-4-Voice是由清华大学知识工程组(Tsinghua KEG)和智谱AI(Zhipu AI)联合开发的一个开源端到端语音对话模型,旨在推动语音交互技术的进步,弥合机器与人类自然对话之间的差距。原创 2025-04-29 20:43:48 · 689 阅读 · 0 评论 -
阿里开源图生动画模型AnimateAnyone2
近年来,基于扩散模型(diffusion models)的人物图像动画化方法取得了显著进展,例如 Animate Anyone 在生成一致性和泛化性方面表现优异。然而,这些方法在处理人物与环境之间的空间关系和人-物体交互(human-object interaction)时存在局限性,生成的动画往往无法自然融入环境上下文。例如,人物动作可能与环境不协调,缺乏合理的互动性。原创 2025-04-28 19:14:53 · 648 阅读 · 0 评论 -
字节跳动开源数字人模型latentsync1.5,性能、质量进一步优化~
LatentSync1.5 是由 ByteDance 开发的一款先进的 AI 模型,专门针对视频唇同步(lip synchronization)任务设计,旨在实现音频与视频唇部动作的高质量、自然匹配。随着 AI 技术的快速发展,视频生成和编辑的需求在多个领域(如影视制作、虚拟现实、游戏开发)日益增长,高精度的唇同步技术成为关键需求之一。传统的唇同步方法通常依赖复杂的中间表示,例如 3D 面部模型或关键点检测,这些方法不仅计算成本高昂,而且在复杂场景下的表现往往不够理想。原创 2025-04-26 21:20:57 · 580 阅读 · 0 评论 -
清华大学联合vast ai开源3D骨骼化框架UniRig,自动绑定效果超赞~
UniRig 的开发背景源于 3D 动画和内容创作领域的实际需求。随着元宇宙、游戏开发和数字内容生产的快速发展,3D 模型的需求呈爆炸式增长。然而,骨骼绑定(rigging)——为 3D 模型创建骨骼并分配蒙皮权重——是一个复杂且耗时的过程,通常需要专业技能和大量手工操作。例如,手动绑定一个复杂模型可能需要数小时甚至数天,且对非标准拓扑(如动物或无机物)尤其困难。原创 2025-04-24 18:17:38 · 803 阅读 · 0 评论 -
阿里开源图片驱动数字人框架EMO2,新增视频输入
EMO2(End-Effector Guided Audio-Driven Avatar Video Generation)是由HumanAIGC团队开发的一个音频驱动的人像视频生成框架,旨在生成富有表现力的面部表情和手势动作的肖像视频。该项目扩展了原EMO(Emote Portrait Alive)项目,增加了手部动作生成功能,显著提升了视频的真实性和动态感。本报告从项目背景、技术架构和性能表现等方面进行详细分析,结合相关技术报告提供全面见解。原创 2025-04-23 20:52:35 · 882 阅读 · 0 评论 -
阿里HumanAIGC 团队开源实时数字人项目ChatAnyone
ChatAnyone 是一个由 HumanAIGC 团队开发的开源项目,专注于从单张肖像照片和音频生成实时风格化的上半身动画视频。该项目发布于 2025 年,论文《ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model》由 Jinwei Qi 等人在 ArXiv 上发表,进一步阐述了其技术细节。原创 2025-04-20 20:24:20 · 995 阅读 · 0 评论 -
CyberAgentAILab 开源数字人项目TANGO,heygen的开源版来了~
TANGO 是 CyberAgentAILab 开源的一项前沿研究成果,其初衷在于探索高效生成模型在实际应用场景中的表现。项目诞生于 CyberAgent 在整合创意与人工智能的实践中,旨在为数字内容生成、交互和实时渲染等领域提供一个高性能、模块化、可扩展的解决方案。应用场景:该项目既可以用于生成高保真图像或视频,也可以作为数字人、虚拟主播等多媒体内容的生成引擎,为用户提供实时交互体验。原创 2025-04-17 20:49:04 · 315 阅读 · 0 评论 -
复旦大学、百度联合开源数字人项目hallo2,支持高分辨率(可达4K)、长视频生成(最多1小时)
hallo2是一个由复旦大学、百度公司和南京大学的研究团队共同开发的开源项目,专注于音频驱动的肖像图像动画生成技术。该项目于2024年10月首次在ArXiv上发布论文,并于2025年1月被国际机器学习会议ICLR 2025接收,标志着其在学术界的重要地位。hallo2旨在突破现有方法在时长和分辨率上的限制,为娱乐、教育和虚拟现实等领域提供创新解决方案。原创 2025-04-16 20:53:28 · 1162 阅读 · 0 评论 -
开源TTS项目GPT-SoVITS,支持跨语言合成、支持多语言~
GPT-SoVITS 是一个开源的文本转语音(TTS)项目,旨在通过少量语音数据实现高质量的语音合成。其核心理念是将基于变换器的模型(如 GPT)与语音合成技术(如 SoVITS,可能指“唱歌语音合成”)结合,特别适合需要个性化语音但数据有限的场景。原创 2025-04-15 20:29:55 · 240 阅读 · 0 评论 -
实时语音交互数字人VideoChat,可自定义形象与音色,支持音色克隆,首包延迟低至3s
实时语音交互数字人,支持端到端语音方案(GLM-4-Voice - THG)和级联方案(ASR-LLM-TTS-THG)。用户可通过麦克风或文本输入,与数字人进行语音或视频交互。原创 2025-04-14 21:28:01 · 331 阅读 · 0 评论 -
阿里通义实验室发布图片数字人项目LAM,实现高保真重建
LAM项目结合了3D Gaussian Splatting(高斯点云渲染)和大规模预训练模型的优势,解决了传统头部重建方法效率低、依赖多数据的痛点。其背景源于AI生成内容(AIGC)领域对实时、高保真3D头像生成的需求,尤其是在虚拟现实、游戏、虚拟主播等场景中。原创 2025-04-13 20:40:16 · 659 阅读 · 0 评论 -
实时交互数字人项目LiveTalking,支持数字人训练、克隆、全身,已支持mac gpu~
目标:LiveTalking 致力于构建一个实时互动的数字人系统,能够实现音视频同步对话,支持直播、在线教育、虚拟客服等多种场景。核心特点:** 实时性:通过流式传输技术(RTMP 或 WebRTC)实现低延迟的音视频互动。** 多模型支持:集成了多种数字人模型,包括 ER-NeRF、MuseTalk、Wav2Lip 和 Ultralight-Digital-Human。** 支持语音克隆** 支持在数字人说话时打断它** 支持全身视频拼接** 支持rtmp和webrtc。原创 2025-04-10 20:38:52 · 619 阅读 · 0 评论 -
阿里发布实时数字人项目OmniTalker,实时驱动技术再突破~
OmniTalker 是一个由 阿里巴巴集团 Tongyi Lab(通义实验室) 开发的研究项目,专注于实时文本驱动的说话头像生成技术。该项目旨在通过文本输入生成同步的语音和视频内容,同时保留参考视频中的音视频风格。原创 2025-04-09 21:15:52 · 1173 阅读 · 0 评论 -
2noise团队开源ChatTTS,支持多语言、流式合成、语音的情感、停顿和语调控制
ChatTTS 是一个开源的文本转语音(Text-to-Speech, TTS)项目,由 2noise 团队开发,专门为对话场景设计。它在 GitHub 上广受欢迎,因其自然流畅的语音合成能力和多功能性而备受关注。原创 2025-04-08 21:02:52 · 916 阅读 · 0 评论 -
maskgct 的升级版Metis,支持情感控制、语速调节和音色转换、扩展性进一步增强
Metis 是 MaskGCT 的升级版,由香港中文大学(深圳)和广州趣丸网络科技有限公司联合开发,作为 Amphion 开源平台的一部分进一步推进了语音生成技术的研究和应用。相比 MaskGCT,Metis 在功能、性能和任务支持上都有显著提升,旨在成为一个统一的、多任务的语音生成基础模型。原创 2025-04-07 19:34:32 · 646 阅读 · 0 评论 -
上交大开源TTS模型F5-TTS -V1,性能进一步提升,且适配各种设备
F5-TTS(全称 “F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching”)是一个由上海交通大学等机构的研究团队开发的高效文本转语音(TTS)系统。该项目的背景植根于语音合成领域的最新发展趋势,特别是非自回归模型的兴起以及对高效、高质量语音生成的需求。2025/03/12 🔥 F5-TTS 更新了V1版本模型。原创 2025-04-02 09:34:56 · 1006 阅读 · 0 评论 -
可实时交互二次元数字人VirtualWife,支持模型替换、大模型接入,适配直播、聊天助手等场景!
VirtualWife是一个虚拟数字人项目,项目还处于孵化阶段,有很多需要优化的地方,作者想打造一个拥有自己“灵魂”的虚拟数字人,你可以像朋友一样和她相识,作者希望虚拟数字人融入人类生活,作为恋爱导师,心理咨询师,解决人类的情感需求。原创 2025-03-30 10:21:34 · 331 阅读 · 0 评论 -
阿里发布全模态模型Qwen2.5-Omni,支持文本、图像、音频和视频输入,且支持实时响应!
Qwen2.5-Omni 是 Qwen 系列的最新多模态模型,由阿里巴巴云 Qwen 团队开发,用户查询其项目背景,本报告基于 2025 年 3 月 27 日的最新信息(包括 GitHub、Hugging Face 和 X 上的讨论),从研发动机、团队背景、开发过程和目标等角度进行详细分析。原创 2025-03-28 07:50:54 · 736 阅读 · 0 评论 -
B站开源TTS模型index-tts,超越 CosyVoice2、Fish-Speech 和 F5-TTS 等模型
IndexTTS 是 B 站(哔哩哔哩)推出的一款文本转语音(TTS)系统,基于开源项目 XTTS 和 Tortoise 开发,并针对中文语音合成的特定需求进行了优化。用户查询其研发背景和架构原理,本报告基于 2025 年 3 月 24 日的最新信息(结合 X 上的讨论和假设的官方背景),从研究背景、技术架构和创新点等角度进行详细分析。原创 2025-03-27 17:50:09 · 1777 阅读 · 0 评论 -
阿里开源半身驱动数字人EchoMimicV2,全身指日可待~
EchoMimicV2 是 EchoMimic 的第二代版本,专注于音频驱动的半身人物动画生成,由蚂蚁集团团队开发,已被 CVPR 2025 接受。用户查询其研发背景和架构原理,本报告基于 2025 年 3 月 24 日的最新信息,从研究背景、技术架构和创新点等角度进行详细分析。原创 2025-03-26 08:15:00 · 644 阅读 · 0 评论 -
DeepSeek-V3深夜更新,代码能力直逼claude3.7-sonnet!
685B的DeepSeek-V3新版本,就在昨夜悄悄上线了。参数量685B的V3,代码数学推理再次显著提升,甚至代码追平Claude 3.7,网友们实测后大呼强到离谱!有人预测说,按照此前的节奏,DeepSeek-R2大概率几周内就将上线。原创 2025-03-25 20:27:00 · 421 阅读 · 0 评论 -
京东与浙江大学联合开源数字人项目JoyVASA,支持人与动物的面部驱动!
JoyVASA 是由 京东健康(JD Health International Inc.)与浙江大学 联合研发的音频驱动面部动画技术。项目旨在通过结合音频信号与扩散模型,生成高精度唇形同步及自然头部运动 的面部动画,解决传统方法中视频质量低、同步性。原创 2025-03-25 09:23:03 · 363 阅读 · 0 评论 -
一体化AI应用AnythingLLM,与你的文档聊天,使用AI代理,超可配置
前端:一个viteJS+React前端,您可以运行它来轻松创建和管理LLM可以使用的所有内容。server:一个NodeJS express服务器,用于处理所有交互,并执行所有vectorDB管理和LLM交互。collector:NodeJS表示服务器,用于处理和解析来自UI的文档。docker:docker指令和构建过程+从源代码构建的信息。embed:用于生成和创建web嵌入小部件的子模块。浏览器扩展:chrome浏览器扩展的子模块。原创 2025-03-24 19:55:02 · 318 阅读 · 0 评论 -
俄罗斯妹子开源的桌面女友应用,支持自定义!
图像头像:使用情感套件,通过静态图像集合展示角色的情感。Live2D 模型:集成动画 Live2D 模型,享受沉浸式、视觉丰富的沟通体验。原创 2025-03-23 20:29:19 · 449 阅读 · 0 评论 -
Ollama、DeepSeek、dify,企业级的知识库本地部署方案!
Ollama 是一个跨平台的轻量级工具,旨在本地运行大型语言模型(LLM),如 DeepSeek、Llama 和 Mistral。它提供了一键式模型部署,适合需要数据隐私和本地控制的用户。DeepSeek 是一个开源的 LLM,特别适合需要强推理能力的应用,而 Dify 是一个开源的 AI 应用开发平台,支持与本地部署的模型集成,构建复杂的 AI 应用,如聊天机器人或工作流自动化。研究表明,这种组合特别适合企业或个人用户,追求完全离线运行以消除数据泄露风险,并确保数据资产的完全控制。原创 2025-03-21 09:40:10 · 712 阅读 · 0 评论 -
开源一站式数字人项目AigcPanel,支持windows一键安装!
AigcPanel 是一个简单易用的一站式AI数字人系统,小白也可使用。支持视频合成、声音合成、声音克隆,简化本地模型管理、一键导入和使用AI模型。原创 2025-03-15 20:52:17 · 143 阅读 · 0 评论 -
open-sora2.0发布,成本显著降低、语义理解能力大幅增强!
Open-Sora官方与3月12日发布了Open Sora 2.0(11B)。🎬 11B型号在性能上与11B浑源视频和30B步进视频不相上下📐VBench&📊人类偏好。🛠️ 完全开源:开发与训练的成本仅需20万美元。原创 2025-03-15 20:51:59 · 233 阅读 · 0 评论 -
Spark TTS,基于LLM的TTS模型,支持零样本语音克隆,允许语言和语音之间的无缝转换
Spark-TTS 是基于大型语言模型(LLM)的高效文本转语音(TTS)系统。原创 2025-03-13 14:02:30 · 365 阅读 · 0 评论 -
阿里声音克隆模型cosyvoice2,支持音色预训练/3s极速克隆/自然语言控制/自动识别/音色保存
CosyVoice 2 是一个开源模型,用户可以根据硬件条件进行部署和推理。当前版本为功能扩充(预训练音色/3s极速复刻/自然语言控制/自动识别/音色保存/API),支持 Windows / Linux / MacOS。原创 2025-03-12 17:49:15 · 953 阅读 · 0 评论 -
智谱AI开源CogView4,支持中英文,性能比肩flux!
分辨率: 长宽均需满足 512px - 2048px 之间,需被32整除, 并保证最大像素数不超过 2^21 px。精度: BF16 / FP32 (不支持FP16,会出现溢出导致纯黑图片)原创 2025-03-10 11:51:17 · 938 阅读 · 0 评论 -
开源实时交互数字人项目Open-LLM-VTuber,你的专注A I女友!
Open-LLM-VTuber 是一个开源的虚拟主播(VTuber)项目,旨在通过语音交互、视觉感知和 Live2D 虚拟形象,为用户提供自然流畅的对话体验。该项目支持本地运行,用户可以在自己的设备上离线使用。原创 2025-03-08 21:53:07 · 498 阅读 · 0 评论 -
硅基智能宣布开源核心产品「HeyGem).ai,完全离线的高质量数字人制作
头部数字人公司硅基智能宣布开源其核心产品「HeyGem.ai」,提供本地化部署的完整数字人解决方案。用户仅需1秒视频或照片,即可30秒生成高精度数字分身,支持无限克隆与离线使用,彻底打破行业技术壁垒。原创 2025-03-08 11:15:26 · 2689 阅读 · 0 评论 -
阿里正式开源推理模型QwQ-32B,性能比肩DeepSeek-R1满血版,配置要求进一步降低!
QwQ-32B 是由阿里巴巴通义实验室(Qwen团队)开发的一款高性能推理型开源模型,参数量为 320亿(32B)。它以小尺寸和高性价比著称,能够在消费级显卡上运行,同时在数学推理、编程能力和通用任务中表现出色。这个(QwQ)听起来像个表情包,但实力炸裂。QwQ-32B 参数量仅 320 亿,但在多个测试基准上,直接媲美 6710 亿参数的 DeepSeek-R1 甚至部分任务还略胜一筹。32B 模型用 24G 显存 + 16 核 CPU + 64G 内存就能跑!原创 2025-03-06 22:50:14 · 1208 阅读 · 0 评论 -
360智脑发布基于deepseek-R1的中等量级模型Tiny-R1
觉得还行的话,点个关注哦,时不时更新AI新资讯~原创 2025-03-05 08:00:00 · 983 阅读 · 0 评论 -
DeepSeek 发布 DeepEP,3小时内获得2.6k+ GitHub星标
DeepEP 是 DeepSeek 开发的开源通信库,专为 混合专家模型(MoE) 和 专家并行(Expert Parallelism, EP) 设计。其核心目标是通过优化分布式计算环境中的通信效率,解决MoE模型训练和推理时的性能瓶颈。DeepEP 开源后 3小时内获得2.6k+ GitHub星标 ,成为MoE领域的重要工具,推动分布式AI技术的普及。原创 2025-03-02 21:04:24 · 362 阅读 · 0 评论 -
GPT-4.5 重磅发布,天价算力背后的性能提升究竟几何!
GPT-4.5 是 OpenAI 在 GPT-4 基础上推出的迭代版本,内部代号 Orion ,定位为“目前规模最大、知识储备最丰富的模型”。其研发目标是通过扩展计算、数据规模及架构优化,提升无监督学习和推理能力。原创 2025-02-28 22:34:26 · 911 阅读 · 0 评论 -
阿里开源正式开园文生视频、图生视频模型-通义万相 WanX2.1
通义万相 Wan2.1 模型于 2025年1月 发布,并迅速登顶视频生成领域权威评测 Vbench 的榜首,超越了包括 Sora、HunyuanVideo、Minimax 等国内外知名模型,并于这周开源。它是阿里云在 AI 视频生成领域的最新成果,旨在提供高质量、高效率的视频生成能力。原创 2025-02-27 23:04:44 · 1609 阅读 · 0 评论 -
阿里即将开源全球首个支持中英文文字特效的AI视频模型-WanX 2.1
WanX 2.1是阿里巴巴通义万相团队开发的最新版本,于2024年1月推出,并在同年7月首次亮相。它旨在通过AI技术实现从文本描述到视觉内容(如图像和视频)的转换,为用户提供一个强大的工具来创建各种视觉作品。原创 2025-02-26 21:40:44 · 531 阅读 · 0 评论 -
腾讯开源基于SVD的数字人视频模型sonic,效果相当不多~
Sonic数字人模型是由腾讯与浙江大学合作开发的一个开源项目,它专注于通过音频驱动生成逼真的肖像动画,不在以之前SD为基础做数字人处理,而是改用SVD模型,因此视频的连贯性得到较好的改善。原创 2025-02-25 08:32:45 · 689 阅读 · 0 评论 -
即梦AI发布新数字人模型OmniHuman-1,口型对上啦!
随着人工智能技术的发展,特别是深度学习和自然语言处理的进步,AI在内容创作领域的应用越来越广泛。字节跳动作为一家领先的科技公司,一直在探索如何利用AI技术来提升用户体验和创造力。OmniHuman-1模型正是在这种背景下诞生的,它致力于解决视频内容生成中的一些关键问题,比如人物动态生成、口型同步等,从而为用户提供更加丰富和生动的内容创作工具。原创 2025-02-23 17:43:34 · 801 阅读 · 0 评论