小言Ai工具箱-优快云博客

原创 JoyCaption：图片描述秒生成，还在手动打标签？

怎么样？是不是觉得这个工具超给力？简直就是图片党的福音！不仅能帮你快速生成各种风格的图片描述，还能大大提升工作效率，让你有更多时间去享受生活！所以，还是在手动打标签的小伙伴们，赶紧试试吧！相信我，你一定会爱上它的！

2025-02-25 14:55:24 823

原创手机上也能运行DeepSeek R1模型了！

DeepSeek团队秉持“技术平权”理念，利用量化压缩技术让大模型摆脱了服务器的束缚。现在，你的A15芯片就能运行130亿参数的模型，这在半年前还是不可想象的！正如Linus Torvalds所说：“Talk is cheap, show me the code。” 现在，是时候将未来装进口袋了！

2025-02-25 13:30:14 422

原创 2步本地安装部署国产之光大模型DeepSeek，附Mac安装教程和安装包！

DeepSeek是一个国产开源AI大模型，性能与OpenAI的O1相媲美。它不仅在推理任务上表现出色，还实现了完全开源，提供了更多灵活使用的机会。用户可以通过ChatWise与DeepSeek-R1进行互动，享受流畅的聊天、绘图和编程体验。

2025-02-24 15:50:59 831

原创 StableAnimator：复旦微软联手打造AI视频神器，静照秒变动态大片

StableAnimator是复旦大学与微软亚洲研究院联合推出的一款AI工具，首创端到端身份保持视频扩散框架。它可以通过静态照片和动作序列快速生成高质量视频，无需后期处理，效果媲美专业制作，操作简单高效，是视频创作的强大助手！

2024-12-31 15:59:14 1043

原创 facefusion3.1.0：现役最强图片和视频换脸工具！

FaceFusion 3.1.0 带来了全面升级，功能更强大，使用更高效。整合了 DeepFaceLive 和全新 hififace_256 模型，换脸效果更加自然逼真，选择也更多。新增 batch-run 命令支持批量处理，fallback 感知下载提升速度，同时改进年龄修改器和视频进度显示，让操作更顺滑。还加入了 h264_qsv 和 hevc_qsv 编码器，并强制使用 libvpx-vp9 处理 webm 格式，进一步增强视频处理能力。界面进行了现代化更新，操作更加直观流畅。

2024-12-28 16:23:50 2664

原创 SketchGen：AI绘画神器，6G显存就能玩转

SketchGen 是一款高效且亲民的 AI 绘画神器，仅需 6G 显存就能轻松运行，让平民玩家也能畅玩。它支持 10 秒快速出图，效率惊人，同时具备一键生成线稿和提示词反推功能，让你的创意瞬间变为现实，创作体验直达巅峰！

2024-12-27 16:18:44 833

原创 CosyVoice 2.0：AI语音黑科技，声临其境！

1️⃣ 统一流模型：CosyVoice 2.0 支持文本与语音的双向流处理，低至150ms的超低延迟，让TTS和语音聊天等场景实现无缝衔接，带来流畅自然的互动体验！2️⃣ 更高的准确率：CosyVoice 2.0 发音错误减少了 30%-50%！对绕口令、多音词和稀有字符进行了全面优化，在 SEED 困难测试集中创下最低单词错误率，表现堪称卓越！3️⃣ 增强的说话人一致性：零镜头语音生成和跨语言合成在新版中实现了更高的保真度和更稳定的说话人表现，让语音输出更加真实可信！

2024-12-26 16:12:29 2685 1

原创 MMAudio AI：无声视频秒变震撼大片，太炸裂了！

说实话，我第一次用的时候，真是被惊艳到了！这效果，简直比我花钱请的配音团队还要好！而且速度还超快！这年头，AI 真是太强大了，感觉自己都快要失业了！最后，我想说，这个工具真的值得你试一试！不管你是视频创作者、教育工作者，还是游戏开发者，都能用得上！如果你也想让你的视频“开口说话”，那就赶紧试试 MMAudio AI 吧！

2024-12-24 14:59:42 1228

原创声音克隆全套工具来啦！不管是唱歌还是说话，统统拿下！

语音克隆是一项利用AI生成与目标语音高度相似的合成语音技术，通过输入一段语音样本，快速生成自然流畅的语音输出。它广泛应用于个性化语音助手、影视配音、教育培训和品牌音频等领域，同时也需注意隐私与伦理问题。技术强大且潜力巨大，但需要规范使用以避免滥用风险。

2024-12-23 14:00:16 721

原创 ConsisID：北大AI神器，一键生成数字分身

ConsisID 是北大推出的文本到视频生成模型。它以频率分解等技术为核心，无需复杂调试，上手即用。生成视频质量优、细节足且人物身份一致，克服传统 AI 换脸尴尬。适用于个性化娱乐、媒体直播、影视制作、教育培训等多场景，是一款极具潜力的创新神器。

2024-12-20 16:36:08 972

原创 ClearerVoice：达摩院开源黑科技，一键让语音清晰到飞起

ClearerVoice-Studio是阿里达摩院推出的开源语音处理工具，具备语音增强、语音分离、提取目标说话人等功能，能解决如录音受噪音干扰、会议录音声音混杂、提取视频中特定人声等烦恼，还集成了像“复数域深度学习算法”等黑科技，简单易用，对经常录制视频等有语音处理需求的人来说很实用。

2024-12-19 17:26:41 1815

原创 HunyuanVideo：腾讯最新AI混元视频秒变大导演，12G显卡就能玩！

腾讯新AI秒变大导演 12G显卡就能玩腾讯推出混元文生视频🎥，它可是有着 130 亿参数的“大家伙”哦！画质那叫一个超真实✨，动作流畅得好似翩翩起舞💃，镜头切换宛如专业导演般娴熟📽️，能尽情展现无尽创意！并且，其门槛已降低至 12G 显存，这意味着更多小伙伴都有机会体验 AI 创作带来的乐趣啦！🌟腾讯混元文生视频：让AI视频创作不再是科幻！大家好呀！近期 AI 领域又有新动态啦！腾讯全新推出的混元文生视频（HunyuanVideo）着实令人震撼不已！它绝非普通的 AI 视频工具，堪称实力强劲的重

2024-12-17 16:25:52 2438

原创 AdvancedLivePortrait：随意控制人物表情，让静态照片动起来，表情包制作神器来了！

AdvancedLivePortrait-WebUI 是一款开源的动态照片制作工具，支持精准控制面部表情，实时预览调整效果，并提供批量处理功能，效率超高！无论是眨眼、挑眉还是嘟嘴，轻松搞定，制作专属动态表情包从未如此简单有趣！

2024-12-14 16:34:22 1676

原创 TANGO：AI数字分身神器来袭一键生成虚拟主播

TANGO是一款声音驱动的数字人生成工具，只需一段视频和语音，即可生成自然动作、流畅手势的虚拟人视频。支持动作补帧、风格还原及多种唇形同步算法，适用于虚拟主播、教育视频等场景，创作高效又真实！

2024-12-13 15:00:54 986

原创 EchoMimicV2：震撼！一张照片10秒变身会说话的数字人

EchoMimicV2是阿里蚂蚁集团推出的最新AI数字人技术。它通过照片、音频和手势视频，生成自然流畅的半身数字人，支持中英文音频切换，并采用音频-姿势动态协调技术，确保动作和表情高度逼真。无论是开口说话还是表现手势，效果都仿佛真人一般，为AI技术带来全新突破！

2024-12-12 16:19:31 778 1

原创 Instant IR：AI照片修复神器来袭，一键让模糊照片变清晰！

Instant IR是一款强大的开源图像修复工具，利用先进的 AI 技术，轻松处理模糊照片，支持运动模糊、老照片修复等多种场景。不仅能还原细节，还可灵活修改元素，让你的照片焕发新生。从萌宠到风景，一键搞定，一切随心！

2024-12-12 15:44:55 555

原创 RMBG 2.0：AI抠图神器，比付费还强大！

RMBG 2.0是一款由BRIA AI打造的免费开源AI抠图工具，凭借高达90.14%的准确率，轻松应对复杂场景，边缘处理细腻，效果媲美甚至超越专业付费工具。支持批量处理和拖拽操作，简单高效，是日常抠图的不二之选！

2024-12-11 16:18:17 1214

原创 Linly-Dubbing：多语言AI配音神器，视频也能发往国外平台了

Linly-Dubbing 是一款集 AI 配音、字幕翻译和数字人对口型同步于一体的强大工具。它通过顶尖的 AI 技术，轻松为视频添加专业配音和多语言字幕，实现完美的视听同步。支持语音识别、翻译、声音克隆以及人声分离等功能，帮助用户创造出更具吸引力和多元化的内容。无论是想要翻译、配音、还是制作个性化的声音，Linly-Dubbing 都能轻松搞定，且持续更新模型保持技术领先。

2024-12-10 17:56:01 1142

原创 TurboEdit：3步改图黑科技，设计师可以提前下班了

TurboEdit是一款在SIGGRAPH Asia 2024上亮相并引起轰动的AI图像编辑神器，具有独特之处。TurboEdit与当今“快”节奏时代完美契合，对设计师、创作者和普通用户而言，都能大幅提升工作效率。

2024-12-10 17:09:17 525

原创 MaskGCT：AI变声神器，一键克隆惊艳全网

MaskGCT是一款先进的AI声音克隆工具，凭借其卓越的音质和深度学习技术，能够生成自然流畅的语音，难以辨别是否为AI合成。它支持多种语言，操作简便，无需复杂的设置，极大地方便了内容创作者。从有声小说制作到视频配音，再到语音助手和直播变声，MaskGCT都能轻松应对。团队持续更新优化，确保用户体验不断提升。

2024-12-10 15:55:37 908

原创 ControlNeXt-SVD-V2：AI照片动画神器，一键让照片跳舞

ControlNeXt是一款强大的AI工具，可以将静态照片转化为动态视频。它能够精确还原各种动作细节，从舞蹈、武术到日常走路，无一不精致流畅。基于SVD模型，生成速度快、效果出色，适用于影视制作、游戏设计和虚拟形象展示等多领域，帮助用户轻松实现高质量的动作捕捉和展示。

2024-12-10 14:55:10 1409 1

原创 AICoverGen：让你秒变歌神，一键克隆任意歌手

AICoverGen是一款强大的AI唱歌工具，允许用户用任何人的声音轻松克隆和创作专属歌曲。它具有直观的网页界面，适合所有技术水平的用户。。此外，它提供丰富的公共声音模型下载，满足各种音色需求，采用最新的RVC v2技术，生成的歌声逼真动听，几乎与原唱无异。

2024-12-10 14:33:05 2003

原创 FacePoke：AI实时表情魔法，25秒变身动画大师！静态照片瞬间生动有趣，实时编辑表情和动作，制作个性头像、搞怪表情包

FacePoke是一款功能强大的在线 AI 肖像编辑工具，专注于表情和动作的实时调整。它采用先进的 AI 技术，精准识别面部特征，支持自然流畅的表情变换，毫无 PS 痕迹。用户可以通过简单的拖拽操作，自由调整表情和头部角度，体验高效、低延迟的编辑过程。FacePoke提供超高分辨率输出，适合制作个性头像、搞怪表情包，甚至高清海报，轻松满足各种创意需求。

2024-11-14 11:35:03 821

原创 BiRefNet：颠覆图像分割，AI黑科技再升级，精度高到离谱，图像背景移除，艺术设计，模拟视图运动，AR 应用

BiRefNet是一款高精度图像分割 AI 模型，专为各行业的精准需求而设计。无论是医疗影像、自动驾驶、农业监测，还是工业质检，它都能高效应对，实现从目标定位到背景替换的自动化操作。BiRefNet不仅提升了操作简便性，还显著提高了各流程的准确度和效率，使得图像处理更加智能和高效，真正为各行业带来了前所未有的技术支持。

2024-11-14 11:11:39 778

原创 SD3.5：震撼来袭！6G显存即可玩转，30步出图还支持NSFW！

Stable Diffusion 3.5系列全面开源，免费商用，支持Large、Large Turbo、和Medium三种版本，适配不同硬件，仅需6G显存即可运行，30步极速出图，支持NSFW。无需复杂Prompt，多种风格随心创作，Large版本对Prompt理解力强，画质媲美大型模型。此外，一键启动包让微调与开发更便捷。SD 3.5让AI绘画更易上手，面向大众应用迈出重要一步。

2024-11-13 15:54:28 803

原创 Finegrain：神级AI让模糊照片秒变高清

是一款基于人工智能的图像增强工具，专为提升图像清晰度和细节而设计。它能够自动分析和处理模糊或低分辨率的照片，使其瞬间变得清晰锐利、细节丰富。使用过程非常简单，只需上传照片，一键操作即可完成优化，适合想要修复老照片或提升日常照片质量的用户。如同一个智能图像修复师，为用户提供专业级别的图像处理效果，让每一张照片都焕发新生。

2024-11-13 15:00:59 1092

原创 Qwen-7B-Chat-Cantonese：通义千问广东话对话大模型，粤语

是 Qwen-7B-Chat 的一个微调版本，专门针对粤语数据进行优化训练，提升了模型在粤语上的理解和适应能力，能够更准确地处理和生成粤语内容。

2024-11-13 14:08:29 698

原创 PuLID：高效的图像换脸，可以通过文本提示编辑图像，通过指令修改人物属性，个性化文本到图像生成模型，支持AI换脸！艺术创作、虚拟形象定制以及影视制作

是由字节跳动团队开源的一项创新技术，采用对比对齐和快速采样方法，实现了高效的图像换脸，无需修改模型即可完成。它在保证身份高保真度的同时，最大限度地减少了对原图风格和背景的影响。用户可以通过文本提示轻松编辑图像，生成真实且个性化的效果。支持个性化调整，让用户通过简单指令修改人物属性，方便大规模应用，广泛适用于艺术创作、虚拟形象定制以及影视制作等领域。PuLID：个性化文本到图像生成模型，支持AI换脸！引领特征保持技术的新纪元！只需简单4步操作，无论是单张还是多张参考图像，都能轻松实现。

2024-11-13 11:12:41 844

原创 ChatTTS升级版：文本转语音（TTS）模型，对话TTS优化，细粒度控制，更好的韵律，支持音色抽卡、长音频生成和分角色朗读！支持中英文双语

ChatTTS是一款创新的文本转语音（TTS）模型，专为对话场景设计，支持中英文双语。经过大量训练，ChatTTS实现了自然、流畅且富有表现力的语音合成，并在韵律控制上超越了大多数开源模型。它不仅能细致控制笑声、停顿和感叹词等特征，还可以生成多语言、多场景的语音内容。无论是为虚拟助理、游戏角色提供自然语音，还是为视力或听力障碍人士创造更好的交流体验，ChatTTS都展现了其广泛的应用潜力。

2024-11-13 10:33:21 1478 1

原创混元DiT：中文AI绘画模型，文生图，长文本理解能力，细粒度语义理解，多轮对话文生图

混元DiT是一款中英双语文本到图像生成模型，基于Diffusion transformer架构，具备以下特点：双语支持：针对中文优化，能生成中国传统文化相关图像。长文本解析：支持256个标记的输入，准确捕捉细节。多轮对话创作：与用户互动，迭代生成符合需求的图像。多尺寸生成：适用于社交媒体到大尺寸打印品的多种场景。艺术创作能力：能根据创意描述生成个性化艺术作品。高质量匹配：确保图像与文本内容高度一致。混元DiT在文本到图像生成领域具有强大且灵活的应用前景。

2024-11-12 15:28:40 1106

原创 ToonCrafter：开源动画插帧工具的AI魔法秀，提供起始和结束的卡通画面，自动生成卡通动画的中间帧，线稿指导动画生成，草图插帧生成，草图自动上色

是一款开源的动画插帧工具，利用预训练的图像到视频扩散模型，实现卡通图像之间的平滑过渡。它具备以下核心特点：自动插帧：通过生成流畅的中间动画帧，简化了动画制作的流程，即使只有几帧参考草图也能生成连贯动画。支持多种动画效果：无论是物体的膨胀、移动或其他动态效果，都能保持动画的连贯性。自动上色：根据彩色参考图像对线稿动画自动上色，确保色彩风格和分布与参考图像高度一致，大幅节省人工上色时间。多风格适应性：无论是简单的线条动画还是复杂的卡通场景，它都能轻松处理，适应不同的动画风格。

2024-11-12 14:32:31 1330

原创 StreamV2V：实时视频换脸重绘新突破

StreamV2V是视频到视频翻译技术的一大突破。它通过创新的流式处理和特征库机制，实现了实时高效的视频处理，同时确保生成视频的高质量和一致性。这种技术进步为视频生成领域带来了全新的可能性。

2024-11-12 13:36:35 1123

原创 Hallo：开源数字人项目，语音音频驱动的动画生成逼真且生动的肖像

Hallo专注于音频驱动的肖像动画生成。它采用创新的端到端扩散范式，结合基于UNet的去噪技术，实现了高质量、精准同步的肖像动画。Hallo在嘴唇同步、表情控制和姿态动作等方面表现出色，显著提升了动画生成的精度和多样性，展示了在虚拟角色和多媒体应用中的广泛潜力。

2024-11-08 14:31:04 596

原创 StreamMultiDiffusion：只需在指定区域输入文本提示，就能即时生成图像，文生图

上传背景图像。你可以从白色背景开始创作，也可以使用手机拍摄的照片或其他AI生成的艺术作品作为基础。甚至还可以完全覆盖整个画布，使用特定的语义画笔，根据文本提示同时绘制出背景图像。这种灵活性让用户能够从零开始或在已有素材上进行进一步创作，实现更丰富的艺术表达。输入一些文本提示。在界面左侧的语义调色板上点击每个语义画笔，然后在下方的输入框中输入你的文本提示。这将自动创建一个新的语义画笔，帮助你定义特定区域的图像内容。通过这种方式，你可以为每个画笔设定不同的语义指令，精确控制图像的生成效果。绘制。

2024-11-08 11:08:34 685

原创 MimicBrush：使用一张图片，对另一张图进行局部风格重绘

MimicBrush具备强大的局部编辑和风格仿制功能，只需提供参考图像或文本描述，即可实现精准编辑，无需复杂操作。利用CLIP编码器和VAE技术，MimicBrush实现了文本与图像的无缝对齐，让用户轻松引导编辑过程。其应用领域广泛，包括产品定制、角色设计和特效制作等，并基于SD1.5扩散模型和MimicBrush模型相结合的架构，显著提高了编辑效率和灵活性，是图像编辑领域的高效“终极武器”。

2024-11-08 10:06:27 982

原创 MimicMotion：一张图片生成跳舞视频，不管是小姐姐热舞还是其他舞蹈，统统拿下！

总之，的问世代表着生成式人工智能在视频生成领域的一次重要突破。它不仅提升了视频内容的可控性和质量，还为视频生成技术的应用和普及开创了新可能。随着技术的持续发展和完善，未来将有更多创新的应用场景涌现，推动整个行业进一步向前发展。

2024-11-08 09:08:20 1557

原创 Omost:不用写Prompt了，一句话生成精美图片！文生图

Omost项目是一项创新尝试，将AI语言模型的能力扩展到图像生成领域，为开发者和创意爱好者提供了一个强大的工具，用于探索和实现自动生成创意图像。这个项目展示了AI技术如何持续突破界限，为创意产业带来革命性的变革。

2024-11-07 16:28:57 1088

原创 Face Adapter：带表情控制的AI换脸

是一款专为预训练的扩散模型设计的适配器，旨在提升面部编辑任务的精度和效果。它可以同时处理面部重演和面部交换两种任务，并通过精细的个体识别和属性控制，实现原图面部特征与目标表情的无缝融合。相比现有的SD适配器，解决了在生成细节和处理面部形状变化方面的挑战。此外，其设计简洁，易于集成到现有系统中，有助于推动面部编辑技术的进一步发展。

2024-11-07 15:16:24 662

原创 PaintsUndo：赛博活佛再出手，一键生成绘画全过程视频！

PaintsUndo是一款创新的AI工具，能够将静态图像转化为绘画过程视频。它依托于SD1.5修改架构和VideoCrafter系列模型，生成的过程包括从输入图像和操作步骤到生成关键帧，再到最终的视频输出。用户可以自定义图片宽高、关键帧生成以及帧速率等参数，生成效果逼真，仿佛是艺术家亲手绘制的全过程。操作简单，几分钟内便可生成高质量的绘画过程视频。

2024-11-07 14:25:04 676

原创 Florence2：微软出品！多任务视觉轻量模型！图像反推、语义分割、文字识别等等

Florence2是一款强大且高效的视觉识别模型，集成了图片文本识别、对象检测和语义分割三大功能。相比其他大型模型，它速度更快、占用空间更小。Florence2还提供了可微调版本，针对特定任务进行优化，并内置多种模式，无需额外插件即可执行不同任务，尤其在文字识别上表现准确。

2024-11-07 11:20:59 525

空空如也

空空如也