三花AI-优快云博客

原创字节即梦 3.0 图像模型灰度测试，商用级海报直出

字节跳动的的 AI 创作平台即梦的生图模型 3.0 正在灰度测试，部分用户有使用权限，从现有用户反馈来看，能直出商用级的海报，出图质量和生成汉字的能力效果非常好。Remade AI 推出 WAN2.1 视频模型的愚人节特效 LoRA，包含 Jumpscare、生气、惊掉下巴、亲嘴、大笑、哭泣等多种夸张表情特效。Recraft[5] AI 设计工具正式宣布支持使用外部模型，首批合作的是黑森林团队的 Flux 1.1 pro 和 Flux 1 dev 模型。图片来源 x[1] 上的推友。

2025-04-03 15:14:21 186

原创 OpenAI 学院低调上线，为老年人打造的 AI 课程等

EasyControl Ghibli[2] 是一个基于 EasyControl 框架的技术，专注于生成 GPT4o 同款的吉卜力风格图片，作者仅使用了 100 张亚洲面孔和 GPT-4o 生成的吉卜力风格面孔进行训练，就能精准地将任意人物照片转化为宫崎骏动画风格。Runway 最新发布了 Gen-4 视频生成模型，是继 Gen-3 Alpha 之后的重大升级，主要是解决了 AI 视频生成中的一大难题——角色、物体和场景在不同镜头中的一致性问题，另外在真实感和可控性也有改进。

2025-04-02 11:08:18 340

原创 ChatGPT Image Generation 功能仅1小时增长一百万用户

值得注意的是，2 个月前 OpenAI CEO Sam Altman 曾在社区发起投票[2]，询问是希望开源 o3 mini 还是能在手机上运行的模型。MURAKA[4] 是昆仑万维推出的AI音乐生成平台（类似 Suno），前几天更新了新版本，包括 O1/V6 模型，支持模型微调，提供了API接口，支持了更多语言。唯一优势可能就是目前完全免费了。（配图由 GPT-4o 生成，我让它改成中文版，已经半小时了还在生成，先贴个英文的吧）从官方的演示来看，生成的效果还是比较自然的，官网支持免费试用，佬们可以试试。

2025-04-01 10:18:06 349

原创 ChatGPT 推出精准图片编辑功能

OpenAI 为 ChatGPT 的图像生成功能新增了局部编辑能力。现在，用户可以直接在 AI 生成的图片上使用遮罩工具进行精准编辑，支持添加新元素、移除不需要的部分，或是替换特定区域的内容，都能轻松实现。生数科技在中关村论坛正式发布国产视频生成模型 Vidu Q1。该模型在多主体细节控制（特别是动作和布局）、音效同步、画质增强等能力上均有提升。目前该功能处于灰度测试阶段，仅对部分 Web 端用户开放，佬们可以看看有没有灰度到。

2025-03-31 11:08:29 103

原创 zenctrl_tools：万金油视觉内容创作 Agent

OpenAI 在 ChatGPT 中发布了更新的 GPT-4o，改进了提示词遵循、编程能力和创造力，减少了 emoji 输出，现在付费用户可以使用了，免费用户将在未来几周内获得使用权限。不过说实话，如果没有什么非常逆天的能力更新，那么估计会和 Ideogram 3.0 一样淹没在昨天 4o 的各种吉卜力画风的浪潮中。控制模型：支持形状(Canny/HED/涂鸦/深度等)、姿态、蒙版、相机视角。编辑功能：修复(移除/蒙版混合/替换)、外扩、运动变换、重新照明。预处理：背景移除、抠图、重塑、分割等。

2025-03-28 09:32:34 205

原创 Qwen 2.5-Omni-7B: 语音聊天 + 视频聊天

AI 图像生成平台 Ideogram 正式发布了 3.0 版本模型，在真实感、创意表现和图像一致性方面都有提升。不用客户端，佬们可以在 qwen.ai 上直接语音或视频聊天。阿里通义团队发布了 Qwen 2.5-Omni-7B 模型，OpenAI 高级语音模式的开源平替。不过目前官方尚未公布 API 接口和具体定价方案，根据我的经验，这种级别的模型服务估计不会太便宜。新版本现已在其官网开放使用，所用用户都可以使用，每次消耗 4 个积分。这个模型能够无缝处理文本、图像、音频和视频等多种输入形式。

2025-03-27 09:48:30 198

原创 DeepSeek-V3 非推理模型首次登顶排行榜，开源模型里程碑时刻啊！

OpenAI 推出了 GPT-4o 的图像生成功能，它取代了此前使用的DALL-E 3模型，利用GPT-4o的原生多模态能力，能够支持渲染文本，支持从写实风格到艺术插图的多种风格，能处理复杂的用户指令，并保持一致性，还能通过多轮对话逐步调整和完善图像。谷歌正式推出 Gemini 2.5 Pro 实验版（gemini-2.5-pro-exp-03-25），这是一款推理模型，在 Chatbot Arena 评测中荣登榜首。（前端佬们又要失业了。此外，在工具调用、角色扮演、问答闲聊等方面也有明显的能力提升。

2025-03-26 11:18:21 303

原创 Cloudflare 推出 AI Labyrinth：用 AI 生成的迷宫对抗恶意爬虫

Cloudflare[4] 最新推出了名为 AI Labyrinth 的反爬虫技术，专门用于应对非法 AI 爬虫。这个思路相当清奇——不再简单封禁爬虫，而是提供大量看似有用实则无用的链接和内容，诱骗爬虫进行无效爬取。StarVector[6] 是一个专门用于像素图转矢量图的 AI 模型，特别针对图标和 emoji 进行了优化。DeepSeek V3-0324[1] 模型低调更新，虽然没有官方公告，但已在 HF 上开源。（话说《我的世界》相关的 AI 项目真的很多啊，视频来源JarvisVLA[3]）

2025-03-25 09:55:32 455

原创阿里通义实验室 LHM 技术：快速将照片转换为动画

这个模型没有开源，不过提供了 API ，而且价格相当便宜，每百万输入 tokens 1 元，每百万输出 tokens 4 元，约为 DeepSeek R1 标准时段价格的四分之一。继上次 Remade AI 开源了 8 款 Wan 2.1 特效 LoRA 之后，他们又开源了一系列新的特效 LoRA，包括变身赛亚人、机械人等多样化的特效。佬们有需要的可以看看。字节 InfiniteYou[4] 是基于 FLUX 模型的身份保留模型，能够在保持人物一致性的同时，根据提示词生成多样化的图片。

2025-03-24 16:04:15 384

原创这 token 是金子做的，还是银子做的？

它在性能上可与 o1-mini 等模型媲美，是目前同等规模中最出色的开源模型之一。最大亮点是其“可操控性”（steerability），可以精确控制语音的语调、节奏和表达方式。OpenAI o1-pro[3] API 现已正式上线，输入为 150 美元/百万 token，输出更是高达 600 美元/百万 token。相较于 OpenAI 之前的 Whisper 模型，在语音识别准确性上有了显著提升，尤其是在处理多样化口音和嘈杂环境下的表现更为出色。这 token 是金子做的，还是银子做的？

2025-03-21 15:35:13 267

原创会跳舞的花就这么水灵灵地做出来了

Artificial Analysis的生图模型竞技场[5]上出现了一款名为 Halfmoon 的模型，其 ELO 得分超越了此前的 Recraft v3 模型，以 16 分的优势登顶榜首。Step-Video-TI2V[1] 是由 StepFun（阶跃星辰）开发的图生视频模型，拥有 30B 参数，是目前开源社区中规模最大的 TI2V 模型之一。最关键的是这些能力都是免费使用，Pro 用户只是响应更快，体验丝滑。官方的在线演示是英文的，效果非常不错，我试了下中文，能生成，不过大佐味满满的。

2025-03-20 17:17:54 291

原创 Stability AI 发布 Stable Virtual Camera：从 2D 图像生成 3D 视频

腾讯混元 3D 模型[3] 正式更新，推出了两个新版本：3D 2.0 MV 和 3D 2.0 Mini。注意，这不是一个新模型，而是对 Claude 3.7 的优化版本，最多支持 200k 上下文，工具调用上限提升至 200 次。用户可以自由定义相机轨迹，或者选择预设的动态相机路径，例如 360° 旋转、螺旋、变焦（Dolly Zoom）等，效果极其丝滑。Canvas[1] 就像一块共享白板，可以和 Gemini 协同工作，帮助你完善文档、编写代码、设计原型等。

2025-03-19 10:58:14 355

原创一张照片创造会动的虚拟形象开箱即用解决方案

该版本主要新增了对图像理解的支持，上下文长度从原来的 32k 提升至 128k 令牌，可在单张 RTX 4090 显卡或配备 32GB RAM 的 Mac 上运行，比同参数量的 Llama 3.3 70B 在相同硬件上快 3 倍。它能够通过控制相机视角和运动路径，将已有的视频素材“重新拍摄”，生成全新的动态视角，而无需额外的拍摄设备或复杂的后期制作。“Piece it Together”[6]（简称 PiT）是一款创新的视觉概念生成工具，它能够将用户提供的各种“部件”智能整合，形成一个有意义的整体。

2025-03-18 10:05:22 244

原创 Thera：首个内置物理观测模型的任意尺度超分辨率技术

官方宣称，在与 GPT-4o 和 DeepSeek-V3 的对比中，Command A 在企业级任务中表现同样出色，效率更高。网友们对实际效果的评价一般，CEO 李彦宏表示后续会开源，正如今年 2 月份的宣布[7]，4 月 1 日后文心也会全面免费。Command A[2] 是 Cohere 开源的一款专为企业需求优化的大模型，显著降低了硬件成本。腾讯混元[9]宣布即将发布一款全新的 3D 模型[10]，大概率会开源，大家可以期待一下。目前，LBM 技术已经开源，感兴趣的朋友可以在线体验[5]感受下。

2025-03-17 10:36:16 427

原创体验超真实 AI 语音：CSM 1B 模型现已发布

其次，Deep Research 功能也得到了升级，现在能够更有效地整合网络信息，为用户提供更全面的数据支持。此外，Gemini 现在可以连接 Google 的各种应用和服务，例如根据用户的搜索历史智能推荐餐厅或提供旅行建议。最后，所有用户，包括企业用户、教育用户和免费用户，现在都可以在 macOS 上使用“Work with Apps”功能。最后，新增的 Gems 功能允许用户自定义 Gemini，创建专属的 AI 智能体，使 Gemini 更加贴合个人需求。OpenAI 也开始发力了？

2025-03-14 10:41:19 163

原创谷歌 Gemma 3: 甩开同参数模型一条街

与 Stable Diffusion、Flux 不同，Gemini 2.0 Flash EXP 模型不仅能够通过自然语言生成图片，还能将图像与文本混合输出，甚至支持多轮对话，逐步调整和优化图像。谷歌昨日发布了 Gemma 3 模型，该模型支持多达 140 种语言，拥有高达 128k 个令牌的上下文窗口，能够处理文本和图像并生成相应的文本输出。此外，VACE 还支持视频重渲染，能够在保留内容、结构、主体、姿态和动作的同时，对视频进行高质量的重新渲染。：交换视频中的任何元素，实现创意无限的视频编辑。

2025-03-13 10:29:55 971

原创 OpenAI Operator 的开源替代方案：Nanobrowser

Responses API 结合了现有 Chat Completions API 的简洁性和 Assistants API 的工具调用能力，主要提供了三个内置工具：Web Search（网络搜索）、File Search（文件搜索）和 Computer Use（计算机使用）。Agents SDK 是基于去年的实验项目 Swarm[3] 开发的智能体框架，它兼容任何符合 Chat Completions 标准的模型。采用浏览器扩展方式，可以使用自己的 LLM（大语言模型）API。

2025-03-12 10:02:11 267

原创基于 Wan2.1 的扁平风格动画生成；捏捏乐 LoRA 特效开源复现；单目视频实现相机自由运镜

Squish Effect[1] 是基于 Wan2.1 14B I2V 480p 训练而来的 LoRA，这一 AI 特效最初起源于 Pika，昨天，可灵也宣布支持这一特效，现在可以通过开源方式复现了！TrajectoryCrafter[4] 是一项基于扩散模型（diffusion models）的创新技术，能够从单目视频中推断并生成全新的视角。Flat Color[3] 是基于 Wan2.1 训练而来的 LoRA，专注于生成扁平风格（Flat Color）的动画视频。

2025-03-11 10:29:58 207

原创多模态 AI 数字人视频生成模型

Gemini Embedding[5] 是谷歌最近推出的一个实验性嵌入模型（gemini-embedding-exp-03-07），通过 Gemini API 提供服务，该模型在多语言文本嵌入基准测试（MTEB）排行榜上排名第一，超越了之前的 text-embedding-004 模型。Gemini Embedding 支持长达 8K token 的输入，能够嵌入更长的文本、代码或其他数据，输出维度为 3K，几乎是之前 Embedding 模型的四倍。提供了从安装 Docker 到启动的详细教程。

2025-03-10 10:35:28 872

原创 OpenAI 推出 ChatGPT for macOS 更新：IDEs 内直接编辑代码

Mistral OCR[5] 是由 Mistral AI 推出的号称世界最强 OCR，提供 API 调用，官网的演示案例包括表格、图形、数学公式、阿拉伯文等。该接口的定价为每 1000 页 1 美元，如果效果真的好，性价比还是挺高的，可以在 Mistral 的 AI 助手 Le Chat 中试用。此前使用桌面版本的 ChatGPT 来改写或生成代码后，需要手动复制粘贴，现在可以自动插入或手动 apply 代码，方便太多了！值得注意的是，该模型输出的不是音频文件，而是 ABC & xml 文件。

2025-03-07 10:42:12 426

原创 TheoremExplainAgent：AI 驱动的数学与科学教学动画

TheoremExplainAgent[2]（简称 TEA）是由 TIGER AI Lab 开发的一款 AI 多智能体，专门设计用于将复杂的数学和科学定理转化为易于理解的 Manim 教学动画，每段动画时长能超过 5 分钟。唯一的不同就是处理 Manim Scene 时，TEA 是动态的（不可控），而小视频宝是范式的。（简称 TEA）是由 TIGER AI Lab 开发的一款 AI 多智能体，专门设计用于将复杂的数学和科学定理转化为易于理解的 Manim 教学动画，每段动画时长能超过 5 分钟。

2025-03-06 11:26:39 983

原创智谱开源 CogView-4：支持原生中文输入的 6B 文生图模型

Anthropic[4] 最近完成了一轮新的融资，这轮融资的金额为 35 亿美元，使公司的估值达到了 615 亿美元。与传统的生图模型只能生成一整张图片不同，ART 的独特之处在于它能够根据全局文本提示（global text prompt）和匿名区域布局（anonymous region layout），直接生成多个独立的透明图层（支持 RGBA 格式，即包含红、绿、蓝和透明度通道）。这些图层可以单独编辑、组合或叠加。具体涉及的模型主要是国外没审查的模型，尤其的生图模型，只剩了一个 KColor。

2025-03-05 10:21:01 492

原创字节 Trae 国内首个 AI IDE正式上线

比起传统的检索工具，面对需要同时理解文本和视觉信息的密集文档时，传统工具容易懵圈，要么抓不住重点，要么推理能力不够，而 ViDoRAG 采用探索、总结和反思的多智能体分工协作，比传统方法强了 10% 以上。字节发布了Trae[1] 国内版，是国内首个 AI IDE，这款 IDE 使用国产大模型提供智能问答、代码自动补全以及基于 Agent 的 AI 自动编程能力。ViDoRAG[3] 是阿里开源的一个“视觉文档检索增强生成”工具，背后是一个多智能体系统，专门为理解那些既有文字又有图片的文档设计。

2025-03-04 13:55:29 297 1

原创 PhotoDoodle：开源照片涂鸦框架，轻松添加艺术元素

Sesame 团队弄了个叫 Conversational Speech Model (CSM) 的语音技术，其主要目的是解决现阶段语音助手那种“死板”的问题，让人觉得是在跟一个真人在说话，能听懂你情绪，还能跟你聊出点感觉来。它允许用户通过简单的文字提示，在真实照片中添加艺术化的装饰元素，例如手绘风格的图案、魔幻效果或卡通角色，同时保持原图的真实感。速度稳定在 20-22 token/秒，一天花费 8.7 万美元，却能赚取 56 万美元，利润率高达 545%。总体确实非常不错，不过音标识别方面还是差点意思。

2025-03-03 11:21:38 430

原创 OpenAI 发布 GPT-4.5 价格不菲

Phi-4-Multimodal 在多模态任务中全面领先，视觉基准相当于 GPT-4o，语音识别超越 WhisperV3，数学、推理和编码媲美更大规模的 Qwen2.5-7B，推理任务上相当于 DeepSeek-Rl-Distill-Qwen-7B。Mercury[3] 是由 Inception Labs 推出的一种新型大语言模型，该模型采用扩散模型技术，允许模型一次性生成多个 token，从而极大提升了生成速度。定价我看了下，每张图的生成成本为 US $0.04，价格不菲，不过生成速度是原来的两倍。

2025-02-28 11:23:12 818

原创 YY+DeepSeek=“YYDS”

这一模型支持文生成视频、图生成视频、视频编辑、文生图以及视频生音频，是首个能够同时支持生成中文和英文文本的视频模型。Gemini Code Assist[4] 是谷歌推出的基于 Gemini 2.0 的编程助手，支持 VS Code[5] 和 JetBrains IDEs，每月提供 18 万次免费代码补全。此外，谷歌还免费推出了基于 GitHub 的 gemini-code-assist[6]，为所有开发者提供免费的 AI Code Review，即使是私有代码库也是免费的。

2025-02-26 13:29:35 331

原创国产模型无法超越支持 18 禁模式的 Grok 3 语音模式

Anthropic 刚刚发布了 Claude 3.7 Sonnet[4] 混合推理模型，拥有200K的上下文窗口，支持高达128K的输出token（测试版），性能超过 DeepSeek R1。此外，他们还推出了一款面向开发者的命令行工具 Claude Code[5]，目前处于预览阶段，可以帮助开发者直接在终端中完成复杂的工程任务，能搜索和阅读代码、编辑文件、运行测试、提交代码到 GitHub 等。这下，国产模型没得超越了！此外，他们还将推出更小型的版本，例如 QwQ-32B，适合在本地设备上部署。

2025-02-25 09:54:03 349

空空如也

空空如也