- 博客(279)
- 收藏
- 关注

原创 JWT的实现及其适用场景
JWT(全称JSON Web Token)是一种开放标准(RFC 7519),它定义了一种紧凑且自包含的方式,用于作为JSON对象在各方之间安全地传输信息。此信息是经过数字签名的,因此可以验证和信任。JWT可以使用秘密(使用HMAC算法)或使用RSA或ECDSA的公钥/私钥对进行签名。虽然JWT可以加密,也可以在各方之间提供保密性,但我们将专注于签名代币。签名令牌可以验证其中包含的声明的完整性,而加密令牌则向其他方隐藏这些声明。当使用公钥/私钥对对令牌进行签名时,签名还证明只有持有私钥的一方才是签名方。
2024-03-22 14:30:21
2273
原创 实时交互数字人项目LiveTalking,支持数字人训练、克隆、全身,已支持mac gpu~
目标:LiveTalking 致力于构建一个实时互动的数字人系统,能够实现音视频同步对话,支持直播、在线教育、虚拟客服等多种场景。核心特点:** 实时性:通过流式传输技术(RTMP 或 WebRTC)实现低延迟的音视频互动。** 多模型支持:集成了多种数字人模型,包括 ER-NeRF、MuseTalk、Wav2Lip 和 Ultralight-Digital-Human。** 支持语音克隆** 支持在数字人说话时打断它** 支持全身视频拼接** 支持rtmp和webrtc。
2025-04-10 20:38:52
97
原创 阿里发布实时数字人项目OmniTalker,实时驱动技术再突破~
OmniTalker 是一个由 阿里巴巴集团 Tongyi Lab(通义实验室) 开发的研究项目,专注于实时文本驱动的说话头像生成技术。该项目旨在通过文本输入生成同步的语音和视频内容,同时保留参考视频中的音视频风格。
2025-04-09 21:15:52
668
原创 2noise团队开源ChatTTS,支持多语言、流式合成、语音的情感、停顿和语调控制
ChatTTS 是一个开源的文本转语音(Text-to-Speech, TTS)项目,由 2noise 团队开发,专门为对话场景设计。它在 GitHub 上广受欢迎,因其自然流畅的语音合成能力和多功能性而备受关注。
2025-04-08 21:02:52
584
原创 maskgct 的升级版Metis,支持情感控制、语速调节和音色转换、扩展性进一步增强
Metis 是 MaskGCT 的升级版,由香港中文大学(深圳)和广州趣丸网络科技有限公司联合开发,作为 Amphion 开源平台的一部分进一步推进了语音生成技术的研究和应用。相比 MaskGCT,Metis 在功能、性能和任务支持上都有显著提升,旨在成为一个统一的、多任务的语音生成基础模型。
2025-04-07 19:34:32
613
原创 上交大开源TTS模型F5-TTS -V1,性能进一步提升,且适配各种设备
F5-TTS(全称 “F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching”)是一个由上海交通大学等机构的研究团队开发的高效文本转语音(TTS)系统。该项目的背景植根于语音合成领域的最新发展趋势,特别是非自回归模型的兴起以及对高效、高质量语音生成的需求。2025/03/12 🔥 F5-TTS 更新了V1版本模型。
2025-04-02 09:34:56
791
原创 可实时交互二次元数字人VirtualWife,支持模型替换、大模型接入,适配直播、聊天助手等场景!
VirtualWife是一个虚拟数字人项目,项目还处于孵化阶段,有很多需要优化的地方,作者想打造一个拥有自己“灵魂”的虚拟数字人,你可以像朋友一样和她相识,作者希望虚拟数字人融入人类生活,作为恋爱导师,心理咨询师,解决人类的情感需求。
2025-03-30 10:21:34
305
原创 阿里发布全模态模型Qwen2.5-Omni,支持文本、图像、音频和视频输入,且支持实时响应!
Qwen2.5-Omni 是 Qwen 系列的最新多模态模型,由阿里巴巴云 Qwen 团队开发,用户查询其项目背景,本报告基于 2025 年 3 月 27 日的最新信息(包括 GitHub、Hugging Face 和 X 上的讨论),从研发动机、团队背景、开发过程和目标等角度进行详细分析。
2025-03-28 07:50:54
661
原创 B站开源TTS模型index-tts,超越 CosyVoice2、Fish-Speech 和 F5-TTS 等模型
IndexTTS 是 B 站(哔哩哔哩)推出的一款文本转语音(TTS)系统,基于开源项目 XTTS 和 Tortoise 开发,并针对中文语音合成的特定需求进行了优化。用户查询其研发背景和架构原理,本报告基于 2025 年 3 月 24 日的最新信息(结合 X 上的讨论和假设的官方背景),从研究背景、技术架构和创新点等角度进行详细分析。
2025-03-27 17:50:09
1225
原创 阿里开源半身驱动数字人EchoMimicV2,全身指日可待~
EchoMimicV2 是 EchoMimic 的第二代版本,专注于音频驱动的半身人物动画生成,由蚂蚁集团团队开发,已被 CVPR 2025 接受。用户查询其研发背景和架构原理,本报告基于 2025 年 3 月 24 日的最新信息,从研究背景、技术架构和创新点等角度进行详细分析。
2025-03-26 08:15:00
570
原创 DeepSeek-V3深夜更新,代码能力直逼claude3.7-sonnet!
685B的DeepSeek-V3新版本,就在昨夜悄悄上线了。参数量685B的V3,代码数学推理再次显著提升,甚至代码追平Claude 3.7,网友们实测后大呼强到离谱!有人预测说,按照此前的节奏,DeepSeek-R2大概率几周内就将上线。
2025-03-25 20:27:00
407
原创 京东与浙江大学联合开源数字人项目JoyVASA,支持人与动物的面部驱动!
JoyVASA 是由 京东健康(JD Health International Inc.)与浙江大学 联合研发的音频驱动面部动画技术。项目旨在通过结合音频信号与扩散模型,生成高精度唇形同步及自然头部运动 的面部动画,解决传统方法中视频质量低、同步性。
2025-03-25 09:23:03
348
原创 一体化AI应用AnythingLLM,与你的文档聊天,使用AI代理,超可配置
前端:一个viteJS+React前端,您可以运行它来轻松创建和管理LLM可以使用的所有内容。server:一个NodeJS express服务器,用于处理所有交互,并执行所有vectorDB管理和LLM交互。collector:NodeJS表示服务器,用于处理和解析来自UI的文档。docker:docker指令和构建过程+从源代码构建的信息。embed:用于生成和创建web嵌入小部件的子模块。浏览器扩展:chrome浏览器扩展的子模块。
2025-03-24 19:55:02
293
原创 俄罗斯妹子开源的桌面女友应用,支持自定义!
图像头像:使用情感套件,通过静态图像集合展示角色的情感。Live2D 模型:集成动画 Live2D 模型,享受沉浸式、视觉丰富的沟通体验。
2025-03-23 20:29:19
391
原创 Ollama、DeepSeek、dify,企业级的知识库本地部署方案!
Ollama 是一个跨平台的轻量级工具,旨在本地运行大型语言模型(LLM),如 DeepSeek、Llama 和 Mistral。它提供了一键式模型部署,适合需要数据隐私和本地控制的用户。DeepSeek 是一个开源的 LLM,特别适合需要强推理能力的应用,而 Dify 是一个开源的 AI 应用开发平台,支持与本地部署的模型集成,构建复杂的 AI 应用,如聊天机器人或工作流自动化。研究表明,这种组合特别适合企业或个人用户,追求完全离线运行以消除数据泄露风险,并确保数据资产的完全控制。
2025-03-21 09:40:10
467
原创 开源一站式数字人项目AigcPanel,支持windows一键安装!
AigcPanel 是一个简单易用的一站式AI数字人系统,小白也可使用。支持视频合成、声音合成、声音克隆,简化本地模型管理、一键导入和使用AI模型。
2025-03-15 20:52:17
135
原创 open-sora2.0发布,成本显著降低、语义理解能力大幅增强!
Open-Sora官方与3月12日发布了Open Sora 2.0(11B)。🎬 11B型号在性能上与11B浑源视频和30B步进视频不相上下📐VBench&📊人类偏好。🛠️ 完全开源:开发与训练的成本仅需20万美元。
2025-03-15 20:51:59
227
原创 Spark TTS,基于LLM的TTS模型,支持零样本语音克隆,允许语言和语音之间的无缝转换
Spark-TTS 是基于大型语言模型(LLM)的高效文本转语音(TTS)系统。
2025-03-13 14:02:30
319
原创 阿里声音克隆模型cosyvoice2,支持音色预训练/3s极速克隆/自然语言控制/自动识别/音色保存
CosyVoice 2 是一个开源模型,用户可以根据硬件条件进行部署和推理。当前版本为功能扩充(预训练音色/3s极速复刻/自然语言控制/自动识别/音色保存/API),支持 Windows / Linux / MacOS。
2025-03-12 17:49:15
624
原创 智谱AI开源CogView4,支持中英文,性能比肩flux!
分辨率: 长宽均需满足 512px - 2048px 之间,需被32整除, 并保证最大像素数不超过 2^21 px。精度: BF16 / FP32 (不支持FP16,会出现溢出导致纯黑图片)
2025-03-10 11:51:17
759
原创 开源实时交互数字人项目Open-LLM-VTuber,你的专注A I女友!
Open-LLM-VTuber 是一个开源的虚拟主播(VTuber)项目,旨在通过语音交互、视觉感知和 Live2D 虚拟形象,为用户提供自然流畅的对话体验。该项目支持本地运行,用户可以在自己的设备上离线使用。
2025-03-08 21:53:07
413
原创 硅基智能宣布开源核心产品「HeyGem).ai,完全离线的高质量数字人制作
头部数字人公司硅基智能宣布开源其核心产品「HeyGem.ai」,提供本地化部署的完整数字人解决方案。用户仅需1秒视频或照片,即可30秒生成高精度数字分身,支持无限克隆与离线使用,彻底打破行业技术壁垒。
2025-03-08 11:15:26
2413
1
原创 阿里正式开源推理模型QwQ-32B,性能比肩DeepSeek-R1满血版,配置要求进一步降低!
QwQ-32B 是由阿里巴巴通义实验室(Qwen团队)开发的一款高性能推理型开源模型,参数量为 320亿(32B)。它以小尺寸和高性价比著称,能够在消费级显卡上运行,同时在数学推理、编程能力和通用任务中表现出色。这个(QwQ)听起来像个表情包,但实力炸裂。QwQ-32B 参数量仅 320 亿,但在多个测试基准上,直接媲美 6710 亿参数的 DeepSeek-R1 甚至部分任务还略胜一筹。32B 模型用 24G 显存 + 16 核 CPU + 64G 内存就能跑!
2025-03-06 22:50:14
966
原创 DeepSeek 发布 DeepEP,3小时内获得2.6k+ GitHub星标
DeepEP 是 DeepSeek 开发的开源通信库,专为 混合专家模型(MoE) 和 专家并行(Expert Parallelism, EP) 设计。其核心目标是通过优化分布式计算环境中的通信效率,解决MoE模型训练和推理时的性能瓶颈。DeepEP 开源后 3小时内获得2.6k+ GitHub星标 ,成为MoE领域的重要工具,推动分布式AI技术的普及。
2025-03-02 21:04:24
354
原创 GPT-4.5 重磅发布,天价算力背后的性能提升究竟几何!
GPT-4.5 是 OpenAI 在 GPT-4 基础上推出的迭代版本,内部代号 Orion ,定位为“目前规模最大、知识储备最丰富的模型”。其研发目标是通过扩展计算、数据规模及架构优化,提升无监督学习和推理能力。
2025-02-28 22:34:26
883
原创 阿里开源正式开园文生视频、图生视频模型-通义万相 WanX2.1
通义万相 Wan2.1 模型于 2025年1月 发布,并迅速登顶视频生成领域权威评测 Vbench 的榜首,超越了包括 Sora、HunyuanVideo、Minimax 等国内外知名模型,并于这周开源。它是阿里云在 AI 视频生成领域的最新成果,旨在提供高质量、高效率的视频生成能力。
2025-02-27 23:04:44
1463
原创 阿里即将开源全球首个支持中英文文字特效的AI视频模型-WanX 2.1
WanX 2.1是阿里巴巴通义万相团队开发的最新版本,于2024年1月推出,并在同年7月首次亮相。它旨在通过AI技术实现从文本描述到视觉内容(如图像和视频)的转换,为用户提供一个强大的工具来创建各种视觉作品。
2025-02-26 21:40:44
502
原创 腾讯开源基于SVD的数字人视频模型sonic,效果相当不多~
Sonic数字人模型是由腾讯与浙江大学合作开发的一个开源项目,它专注于通过音频驱动生成逼真的肖像动画,不在以之前SD为基础做数字人处理,而是改用SVD模型,因此视频的连贯性得到较好的改善。
2025-02-25 08:32:45
537
原创 即梦AI发布新数字人模型OmniHuman-1,口型对上啦!
随着人工智能技术的发展,特别是深度学习和自然语言处理的进步,AI在内容创作领域的应用越来越广泛。字节跳动作为一家领先的科技公司,一直在探索如何利用AI技术来提升用户体验和创造力。OmniHuman-1模型正是在这种背景下诞生的,它致力于解决视频内容生成中的一些关键问题,比如人物动态生成、口型同步等,从而为用户提供更加丰富和生动的内容创作工具。
2025-02-23 17:43:34
730
原创 马斯克推出“地球上最聪明的人工智能”Grok 3
Grok 3 是由埃隆·马斯克的 AI 公司 xAI 于 2025 年 2 月 17 日发布的最新旗舰 AI 模型。该模型旨在与业界领先者如 OpenAI 的 GPT-4o 和 Google 的 Gemini 竞争。Grok 3 的开发利用了 xAI 在孟菲斯的大规模数据中心,拥有约20万个 NVIDIA H100 GPU,这使得其计算能力比前代模型 Grok 2 提高了十倍。
2025-02-22 21:29:05
179
原创 DeepSeek的多模态AI模型-Janus-pro,可生图,可读图
Janus-Pro 是由 DeepSeek 开发的一款多模态理解与生成模型,是 Janus 模型的升级版。它能够同时处理文本和图像,既能理解图像内容,又能根据文本描述生成高质量图像。Janus-Pro 的核心目标是通过解耦视觉编码路径,解决多模态理解与生成任务之间的冲突,从而提升模型的灵活性和性能。Janus-Pro 提供了 1B 和 7B 两种参数规模的版本,支持开源和免费商用,适用于多种应用场景,如广告设计、游戏开发、教育等。
2025-02-05 16:59:07
720
原创 DeepSeek新模型霸榜,代码能力与OpenAI o1相当。而且开源!
DeepSeek-R1-Preview的推理能力在测试中表现出色,尤其是在数学和代码任务上超越了OpenAI的o1-preview,甚至大幅领先GPT-4o。值得注意的是,这并非此前已在DeepSeek官方App中试玩的轻量预览版DeepSeek-R1-Lite-Preview,而是摘掉了“轻量版”帽子、基于更大规模基础模型的升级版本。与此同时,国内其他大模型团队也在春节前纷纷更新模型,例如MiniMax开源了4M超长上下文新模型,性能比肩DeepSeek-v3和GPT-4o;
2025-01-21 08:14:30
232
原创 DeepSeek-R1 重磅来袭:比肩 o1且完全开源,API价格极具性价比!
DeepSeek-R1 是由杭州深度求索公司推出的高性能AI推理模型,于2025年1月20日正式发布。DeepSeek-R1,在强化学习之前整合了冷启动数据。DeepSeek-R1在数学、代码和推理任务方面的性能与OpenAI-o1相当。为了支持研究界,我们开源了DeepSeek-R1-Zero、DeepSeek-R1,以及基于Llama和Qwen从DeepSeek-R1中提取的六个密集模型。
2025-01-21 08:01:38
9030
原创 人形机器人将制造iPhone!
优必选机器人和富士康通过一项突破性的合作伙伴关系,正在将先进的人形机器人(如WalkerS1及其升级版WalkerS2)整合到制造流程中,以改变iPhone的生产方式。这一合作旨在通过提升机器人能力、优化工作流程以及实现更智能的自动化,应对劳动力挑战、提高效率,并为电子行业设定新的标杆。
2025-01-20 13:37:56
1391
原创 OpenAI o3-mini 即将发布:速度提升,助力编程
人工智能领域再迎重磅消息!OpenAICEO山姆·奥特曼近日在社交媒体上透露,期待已久的o3-mini模型将在未来几周内正式亮相。这款模型是基于大型模型的蒸馏版本,将同步推出API接口和网页端版本,旨在满足不同用户的多样化需求。OpenAI的O3-mini是O3系列模型的轻量版,旨在提供高性能推理能力的同时降低计算成本,适合需要快速响应和成本敏感的应用场景。
2025-01-20 07:26:07
895
原创 huggingface cli 下载space内对应的项目
repo_id>:Space 项目的 ID,格式为 username/space_name。通过这些步骤,你可以轻松下载 Hugging Face Space 内的项目。–local-dir=<local_directory>:指定本地保存目录。确保有访问权限,私有项目需要登录 Hugging Face 账户。–revision=main:指定分支或版本,默认为 main。–repo-type=space:指定下载类型为 Space。下载完成后,检查指定目录是否包含项目文件。
2025-01-16 09:49:32
256
1
原创 视觉多模态大模型---MiniMax-vl-01---以闪电般的注意力缩放基础模型
MiniMax-VL-01 是与今年1月15日由上海稀宇科技有限公司(MiniMax)发布并开源的一款视觉多模态大模型,它与基础语言大模型 MiniMax-Text-01 一同构成了 MiniMax-01 系列。这款模型的设计初衷是为了应对日益增长的长上下文处理需求,并为未来的智能体(Agent)系统提供强有力的支持。以下是关于 MiniMax-VL-01 的详细介绍。
2025-01-15 16:07:11
965
原创 Sky-T1:在450美元内训练自己的O1预览模型
Sky-T1-32B 是由加州大学伯克利分校的 NovaSky 团队开发的一款高性能、低成本且完全开源的大规模推理模型。该模型拥有 320 亿个参数,训练成本却不到 450 美元,这主要得益于高效的训练方法和合成数据的应用26。与以往需要数百万美元才能完成训练的大型语言模型相比,Sky-T1-32B 的出现标志着一个重要的里程碑,它不仅降低了进入门槛,也为研究人员和开发者提供了一个强大的工具来探索先进的自然语言处理(NLP)技术。
2025-01-14 10:37:16
731
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人