- 博客(812)
- 收藏
- 关注
原创 字节即梦 3.0 图像模型灰度测试,商用级海报直出
字节跳动的的 AI 创作平台即梦的生图模型 3.0 正在灰度测试,部分用户有使用权限,从现有用户反馈来看,能直出商用级的海报,出图质量和生成汉字的能力效果非常好。Remade AI 推出 WAN2.1 视频模型的愚人节特效 LoRA,包含 Jumpscare、生气、惊掉下巴、亲嘴、大笑、哭泣等多种夸张表情特效。Recraft[5] AI 设计工具正式宣布支持使用外部模型,首批合作的是黑森林团队的 Flux 1.1 pro 和 Flux 1 dev 模型。图片来源 x[1] 上的推友。
2025-04-03 15:14:21
186
原创 OpenAI 学院低调上线,为老年人打造的 AI 课程等
EasyControl Ghibli[2] 是一个基于 EasyControl 框架的技术,专注于生成 GPT4o 同款的吉卜力风格图片,作者仅使用了 100 张亚洲面孔和 GPT-4o 生成的吉卜力风格面孔进行训练,就能精准地将任意人物照片转化为宫崎骏动画风格。Runway 最新发布了 Gen-4 视频生成模型,是继 Gen-3 Alpha 之后的重大升级,主要是解决了 AI 视频生成中的一大难题——角色、物体和场景在不同镜头中的一致性问题,另外在真实感和可控性也有改进。
2025-04-02 11:08:18
340
原创 ChatGPT Image Generation 功能仅1小时增长一百万用户
值得注意的是,2 个月前 OpenAI CEO Sam Altman 曾在社区发起投票[2],询问是希望开源 o3 mini 还是能在手机上运行的模型。MURAKA[4] 是昆仑万维推出的AI音乐生成平台(类似 Suno),前几天更新了新版本,包括 O1/V6 模型,支持模型微调,提供了API接口,支持了更多语言。唯一优势可能就是目前完全免费了。(配图由 GPT-4o 生成,我让它改成中文版,已经半小时了还在生成,先贴个英文的吧)从官方的演示来看,生成的效果还是比较自然的,官网支持免费试用,佬们可以试试。
2025-04-01 10:18:06
349
原创 ChatGPT 推出精准图片编辑功能
OpenAI 为 ChatGPT 的图像生成功能新增了局部编辑能力。现在,用户可以直接在 AI 生成的图片上使用遮罩工具进行精准编辑,支持添加新元素、移除不需要的部分,或是替换特定区域的内容,都能轻松实现。生数科技在中关村论坛正式发布国产视频生成模型 Vidu Q1。该模型在多主体细节控制(特别是动作和布局)、音效同步、画质增强等能力上均有提升。目前该功能处于灰度测试阶段,仅对部分 Web 端用户开放,佬们可以看看有没有灰度到。
2025-03-31 11:08:29
103
原创 zenctrl_tools:万金油视觉内容创作 Agent
OpenAI 在 ChatGPT 中发布了更新的 GPT-4o,改进了提示词遵循、编程能力和创造力,减少了 emoji 输出,现在付费用户可以使用了,免费用户将在未来几周内获得使用权限。不过说实话,如果没有什么非常逆天的能力更新,那么估计会和 Ideogram 3.0 一样淹没在昨天 4o 的各种吉卜力画风的浪潮中。控制模型:支持形状(Canny/HED/涂鸦/深度等)、姿态、蒙版、相机视角。编辑功能:修复(移除/蒙版混合/替换)、外扩、运动变换、重新照明。预处理:背景移除、抠图、重塑、分割等。
2025-03-28 09:32:34
205
原创 Qwen 2.5-Omni-7B: 语音聊天 + 视频聊天
AI 图像生成平台 Ideogram 正式发布了 3.0 版本模型,在真实感、创意表现和图像一致性方面都有提升。不用客户端,佬们可以在 qwen.ai 上直接语音或视频聊天。阿里通义团队发布了 Qwen 2.5-Omni-7B 模型,OpenAI 高级语音模式的开源平替。不过目前官方尚未公布 API 接口和具体定价方案,根据我的经验,这种级别的模型服务估计不会太便宜。新版本现已在其官网开放使用,所用用户都可以使用,每次消耗 4 个积分。这个模型能够无缝处理文本、图像、音频和视频等多种输入形式。
2025-03-27 09:48:30
198
原创 DeepSeek-V3 非推理模型首次登顶排行榜,开源模型里程碑时刻啊!
OpenAI 推出了 GPT-4o 的图像生成功能,它取代了此前使用的DALL-E 3模型,利用GPT-4o的原生多模态能力,能够支持渲染文本,支持从写实风格到艺术插图的多种风格,能处理复杂的用户指令,并保持一致性,还能通过多轮对话逐步调整和完善图像。谷歌正式推出 Gemini 2.5 Pro 实验版(gemini-2.5-pro-exp-03-25),这是一款推理模型,在 Chatbot Arena 评测中荣登榜首。(前端佬们又要失业了。此外,在工具调用、角色扮演、问答闲聊等方面也有明显的能力提升。
2025-03-26 11:18:21
303
原创 Cloudflare 推出 AI Labyrinth:用 AI 生成的迷宫对抗恶意爬虫
Cloudflare[4] 最新推出了名为 AI Labyrinth 的反爬虫技术,专门用于应对非法 AI 爬虫。这个思路相当清奇——不再简单封禁爬虫,而是提供大量看似有用实则无用的链接和内容,诱骗爬虫进行无效爬取。StarVector[6] 是一个专门用于像素图转矢量图的 AI 模型,特别针对图标和 emoji 进行了优化。DeepSeek V3-0324[1] 模型低调更新,虽然没有官方公告,但已在 HF 上开源。(话说《我的世界》相关的 AI 项目真的很多啊,视频来源JarvisVLA[3])
2025-03-25 09:55:32
455
原创 阿里通义实验室 LHM 技术:快速将照片转换为动画
这个模型没有开源,不过提供了 API ,而且价格相当便宜,每百万输入 tokens 1 元,每百万输出 tokens 4 元,约为 DeepSeek R1 标准时段价格的四分之一。继上次 Remade AI 开源了 8 款 Wan 2.1 特效 LoRA 之后,他们又开源了一系列新的特效 LoRA,包括变身赛亚人、机械人等多样化的特效。佬们有需要的可以看看。字节 InfiniteYou[4] 是基于 FLUX 模型的身份保留模型,能够在保持人物一致性的同时,根据提示词生成多样化的图片。
2025-03-24 16:04:15
384
原创 这 token 是金子做的,还是银子做的?
它在性能上可与 o1-mini 等模型媲美,是目前同等规模中最出色的开源模型之一。最大亮点是其“可操控性”(steerability),可以精确控制语音的语调、节奏和表达方式。OpenAI o1-pro[3] API 现已正式上线,输入为 150 美元/百万 token,输出更是高达 600 美元/百万 token。相较于 OpenAI 之前的 Whisper 模型,在语音识别准确性上有了显著提升,尤其是在处理多样化口音和嘈杂环境下的表现更为出色。这 token 是金子做的,还是银子做的?
2025-03-21 15:35:13
267
原创 会跳舞的花就这么水灵灵地做出来了
Artificial Analysis的生图模型竞技场[5]上出现了一款名为 Halfmoon 的模型,其 ELO 得分超越了此前的 Recraft v3 模型,以 16 分的优势登顶榜首。Step-Video-TI2V[1] 是由 StepFun(阶跃星辰)开发的图生视频模型,拥有 30B 参数,是目前开源社区中规模最大的 TI2V 模型之一。最关键的是这些能力都是免费使用,Pro 用户只是响应更快,体验丝滑。官方的在线演示是英文的,效果非常不错,我试了下中文,能生成,不过大佐味满满的。
2025-03-20 17:17:54
291
原创 Stability AI 发布 Stable Virtual Camera:从 2D 图像生成 3D 视频
腾讯混元 3D 模型[3] 正式更新,推出了两个新版本:3D 2.0 MV 和 3D 2.0 Mini。注意,这不是一个新模型,而是对 Claude 3.7 的优化版本,最多支持 200k 上下文,工具调用上限提升至 200 次。用户可以自由定义相机轨迹,或者选择预设的动态相机路径,例如 360° 旋转、螺旋、变焦(Dolly Zoom)等,效果极其丝滑。Canvas[1] 就像一块共享白板,可以和 Gemini 协同工作,帮助你完善文档、编写代码、设计原型等。
2025-03-19 10:58:14
355
原创 一张照片创造会动的虚拟形象 开箱即用解决方案
该版本主要新增了对图像理解的支持,上下文长度从原来的 32k 提升至 128k 令牌,可在单张 RTX 4090 显卡或配备 32GB RAM 的 Mac 上运行,比同参数量的 Llama 3.3 70B 在相同硬件上快 3 倍。它能够通过控制相机视角和运动路径,将已有的视频素材“重新拍摄”,生成全新的动态视角,而无需额外的拍摄设备或复杂的后期制作。“Piece it Together”[6](简称 PiT)是一款创新的视觉概念生成工具,它能够将用户提供的各种“部件”智能整合,形成一个有意义的整体。
2025-03-18 10:05:22
244
原创 Thera:首个内置物理观测模型的任意尺度超分辨率技术
官方宣称,在与 GPT-4o 和 DeepSeek-V3 的对比中,Command A 在企业级任务中表现同样出色,效率更高。网友们对实际效果的评价一般,CEO 李彦宏表示后续会开源,正如今年 2 月份的宣布[7],4 月 1 日后文心也会全面免费。Command A[2] 是 Cohere 开源的一款专为企业需求优化的大模型,显著降低了硬件成本。腾讯混元[9]宣布即将发布一款全新的 3D 模型[10],大概率会开源,大家可以期待一下。目前,LBM 技术已经开源,感兴趣的朋友可以在线体验[5]感受下。
2025-03-17 10:36:16
427
原创 体验超真实 AI 语音:CSM 1B 模型现已发布
其次,Deep Research 功能也得到了升级,现在能够更有效地整合网络信息,为用户提供更全面的数据支持。此外,Gemini 现在可以连接 Google 的各种应用和服务,例如根据用户的搜索历史智能推荐餐厅或提供旅行建议。最后,所有用户,包括企业用户、教育用户和免费用户,现在都可以在 macOS 上使用“Work with Apps”功能。最后,新增的 Gems 功能允许用户自定义 Gemini,创建专属的 AI 智能体,使 Gemini 更加贴合个人需求。OpenAI 也开始发力了?
2025-03-14 10:41:19
163
原创 谷歌 Gemma 3: 甩开同参数模型一条街
与 Stable Diffusion、Flux 不同,Gemini 2.0 Flash EXP 模型不仅能够通过自然语言生成图片,还能将图像与文本混合输出,甚至支持多轮对话,逐步调整和优化图像。谷歌昨日发布了 Gemma 3 模型,该模型支持多达 140 种语言,拥有高达 128k 个令牌的上下文窗口,能够处理文本和图像并生成相应的文本输出。此外,VACE 还支持视频重渲染,能够在保留内容、结构、主体、姿态和动作的同时,对视频进行高质量的重新渲染。:交换视频中的任何元素,实现创意无限的视频编辑。
2025-03-13 10:29:55
971
原创 OpenAI Operator 的开源替代方案:Nanobrowser
Responses API 结合了现有 Chat Completions API 的简洁性和 Assistants API 的工具调用能力,主要提供了三个内置工具:Web Search(网络搜索)、File Search(文件搜索)和 Computer Use(计算机使用)。Agents SDK 是基于去年的实验项目 Swarm[3] 开发的智能体框架,它兼容任何符合 Chat Completions 标准的模型。采用浏览器扩展方式,可以使用自己的 LLM(大语言模型)API。
2025-03-12 10:02:11
267
原创 基于 Wan2.1 的扁平风格动画生成;捏捏乐 LoRA 特效开源复现;单目视频实现相机自由运镜
Squish Effect[1] 是基于 Wan2.1 14B I2V 480p 训练而来的 LoRA,这一 AI 特效最初起源于 Pika,昨天,可灵也宣布支持这一特效,现在可以通过开源方式复现了!TrajectoryCrafter[4] 是一项基于扩散模型(diffusion models)的创新技术,能够从单目视频中推断并生成全新的视角。Flat Color[3] 是基于 Wan2.1 训练而来的 LoRA,专注于生成扁平风格(Flat Color)的动画视频。
2025-03-11 10:29:58
207
原创 多模态 AI 数字人视频生成模型
Gemini Embedding[5] 是谷歌最近推出的一个实验性嵌入模型(gemini-embedding-exp-03-07),通过 Gemini API 提供服务,该模型在多语言文本嵌入基准测试(MTEB)排行榜上排名第一,超越了之前的 text-embedding-004 模型。Gemini Embedding 支持长达 8K token 的输入,能够嵌入更长的文本、代码或其他数据,输出维度为 3K,几乎是之前 Embedding 模型的四倍。提供了从安装 Docker 到启动的详细教程。
2025-03-10 10:35:28
872
原创 OpenAI 推出 ChatGPT for macOS 更新:IDEs 内直接编辑代码
Mistral OCR[5] 是由 Mistral AI 推出的号称世界最强 OCR,提供 API 调用,官网的演示案例包括表格、图形、数学公式、阿拉伯文等。该接口的定价为每 1000 页 1 美元,如果效果真的好,性价比还是挺高的,可以在 Mistral 的 AI 助手 Le Chat 中试用。此前使用桌面版本的 ChatGPT 来改写或生成代码后,需要手动复制粘贴,现在可以自动插入或手动 apply 代码,方便太多了!值得注意的是,该模型输出的不是音频文件,而是 ABC & xml 文件。
2025-03-07 10:42:12
426
原创 TheoremExplainAgent:AI 驱动的数学与科学教学动画
TheoremExplainAgent[2](简称 TEA)是由 TIGER AI Lab 开发的一款 AI 多智能体,专门设计用于将复杂的数学和科学定理转化为易于理解的 Manim 教学动画,每段动画时长能超过 5 分钟。唯一的不同就是处理 Manim Scene 时,TEA 是动态的(不可控),而小视频宝是范式的。(简称 TEA)是由 TIGER AI Lab 开发的一款 AI 多智能体,专门设计用于将复杂的数学和科学定理转化为易于理解的 Manim 教学动画,每段动画时长能超过 5 分钟。
2025-03-06 11:26:39
983
原创 智谱开源 CogView-4:支持原生中文输入的 6B 文生图模型
Anthropic[4] 最近完成了一轮新的融资,这轮融资的金额为 35 亿美元,使公司的估值达到了 615 亿美元。与传统的生图模型只能生成一整张图片不同,ART 的独特之处在于它能够根据全局文本提示(global text prompt)和匿名区域布局(anonymous region layout),直接生成多个独立的透明图层(支持 RGBA 格式,即包含红、绿、蓝和透明度通道)。这些图层可以单独编辑、组合或叠加。具体涉及的模型主要是国外没审查的模型,尤其的生图模型,只剩了一个 KColor。
2025-03-05 10:21:01
492
原创 字节 Trae 国内首个 AI IDE正式上线
比起传统的检索工具,面对需要同时理解文本和视觉信息的密集文档时,传统工具容易懵圈,要么抓不住重点,要么推理能力不够,而 ViDoRAG 采用探索、总结和反思的多智能体分工协作,比传统方法强了 10% 以上。字节发布了Trae[1] 国内版,是国内首个 AI IDE,这款 IDE 使用国产大模型提供智能问答、代码自动补全以及基于 Agent 的 AI 自动编程能力。ViDoRAG[3] 是阿里开源的一个“视觉文档检索增强生成”工具,背后是一个多智能体系统,专门为理解那些既有文字又有图片的文档设计。
2025-03-04 13:55:29
297
1
原创 PhotoDoodle:开源照片涂鸦框架,轻松添加艺术元素
Sesame 团队弄了个叫 Conversational Speech Model (CSM) 的语音技术,其主要目的是解决现阶段语音助手那种“死板”的问题,让人觉得是在跟一个真人在说话,能听懂你情绪,还能跟你聊出点感觉来。它允许用户通过简单的文字提示,在真实照片中添加艺术化的装饰元素,例如手绘风格的图案、魔幻效果或卡通角色,同时保持原图的真实感。速度稳定在 20-22 token/秒,一天花费 8.7 万美元,却能赚取 56 万美元,利润率高达 545%。总体确实非常不错,不过音标识别方面还是差点意思。
2025-03-03 11:21:38
430
原创 OpenAI 发布 GPT-4.5 价格不菲
Phi-4-Multimodal 在多模态任务中全面领先,视觉基准相当于 GPT-4o,语音识别超越 WhisperV3,数学、推理和编码媲美更大规模的 Qwen2.5-7B,推理任务上相当于 DeepSeek-Rl-Distill-Qwen-7B。Mercury[3] 是由 Inception Labs 推出的一种新型大语言模型,该模型采用扩散模型技术,允许模型一次性生成多个 token,从而极大提升了生成速度。定价我看了下,每张图的生成成本为 US $0.04,价格不菲,不过生成速度是原来的两倍。
2025-02-28 11:23:12
818
原创 YY+DeepSeek=“YYDS”
这一模型支持文生成视频、图生成视频、视频编辑、文生图以及视频生音频,是首个能够同时支持生成中文和英文文本的视频模型。Gemini Code Assist[4] 是谷歌推出的基于 Gemini 2.0 的编程助手,支持 VS Code[5] 和 JetBrains IDEs,每月提供 18 万次免费代码补全。此外,谷歌还免费推出了基于 GitHub 的 gemini-code-assist[6],为所有开发者提供免费的 AI Code Review,即使是私有代码库也是免费的。
2025-02-26 13:29:35
331
原创 国产模型无法超越支持 18 禁模式的 Grok 3 语音模式
Anthropic 刚刚发布了 Claude 3.7 Sonnet[4] 混合推理模型,拥有200K的上下文窗口,支持高达128K的输出token(测试版),性能超过 DeepSeek R1。此外,他们还推出了一款面向开发者的命令行工具 Claude Code[5],目前处于预览阶段,可以帮助开发者直接在终端中完成复杂的工程任务,能搜索和阅读代码、编辑文件、运行测试、提交代码到 GitHub 等。这下,国产模型没得超越了!此外,他们还将推出更小型的版本,例如 QwQ-32B,适合在本地设备上部署。
2025-02-25 09:54:03
349
原创 Grok 3 语音模式无审查,与 ChatGPT 对话PK
其中,turbo 模型快速的生成速度和均衡的表现受到青睐,而 plus 模型则在生成细节和画面质感上更为出色。DeepSeek 官方发布开源周活动预告[3],宣布从本周开始,将开源 5 个仓库,展示他们在 AGI 领域的探索进展,并保持完全透明。官方免费的在线体验[6]现已在 HuggingFace 上线,可能是为未来的开源做预热。价格方面,turbo 模型为 0.24 元/秒,plus 模型为 0.70 元/秒。对了,现在 Grok 3 换了一个全新的 Logo,看起来更加现代。
2025-02-24 11:29:53
528
原创 谷歌开源 PaliGemma 2 Mix:视觉多模态大语言模型,支持多种任务
相比上一代,PaliGemma 2 Mix 提供了多种参数规模的模型选择,包括 3B、10B 和 28B,并支持处理 224px 和 448px 分辨率的图片,性能显著提升。是 Google 开源的一款视觉多模态大语言模型(LLM),能够直接应用于多种任务,包括图像标注、OCR、视觉问答、物体检测和分割。
2025-02-21 10:53:18
217
原创 阿里 WANX 2.1 视频生成模型即将开源,视频文字两开花
昨晚宣布即将开源其最新的 WANX 2.1 视频生成模型。目前还没有更多信息,关注我为你持续跟进。
2025-02-21 10:51:12
530
原创 2025 年 TOP9 大模型 Elo 得分趋势:xAI 领跑
在过去的几个月中,AI 大模型的竞争依然非常卷。继上个月 DeepSeek 的几次技术突破后,xAI 凭借其最新的 Grok3 Beta 版一跃登上排行榜首位,成为当前大模型赛道的领跑者。提供了 2025 年 TOP9 来自 Chatbot Arena 的 Elo 得分趋势的可视化数据。你可以通过视频看到这些趋势,如果你懒得看视频,也可以查看这个。
2025-02-21 10:49:03
488
原创 xAI 的 Grok3 Beta 现在可以免费使用
不过,其 Think 和 DeepSearch 功能 24 小时内分别只能使用 2 次。超出使用次数后,系统会自动弹出 SuperGrok 的订阅弹窗。免费使用 xAI 昨天推出的 Grok3 Beta 版本。了解更多关于该版本的信息。
2025-02-20 09:35:32
706
原创 MetaGPT X:首个 AI 开发团队发布,替代小型开发团队
这是一个多智能体开发团队,由 leader、product manager、architect、engineer 和 data analyst 共 5 位 AI 智能体组成,能够创建网站、博客、商店、分析、游戏等,目标是替代小型开发团队。,METAGPT v1.0 将在晚些时候开源。多智能体开发团队现已发布。现在可以在官网免费试用。
2025-02-20 09:32:26
503
原创 LLaDA:大语言扩散模型,性能媲美 LLaMA3
与传统的从左到右的生成方法不同,LLaDA 通过扩散模型生成文本。其核心是通过“前向掩码”和“反向预测”来生成文本,而不是像 ChatGPT 那样逐个生成单词。(Large Language Diffusion with Masking)是一个从头开始训练的扩散模型,规模达到 8B,性能与 LLaMA3 8B 相当。LLaDA 可以更好地实现反向推理,不过目前该模型只发布了论文,代码和模型正在路上。
2025-02-19 10:58:51
161
原创 xAI 发布 Grok 3:超越 DeepSeek R1
现已发布,直播中展示了其在多个基准测试中的卓越表现,包括数学、科学和编程等领域,超越了 OpenAI GPT-4o、Google Gemini、DeepSeek V3 以及 Anthropic Claude 等顶尖模型。此外 xAI 计划在未来几周内为 Grok 3 添加语音交互功能,并通过企业 API 提供其能力。Grok 3 还引入了 DeepSearch 和 Big Brain 功能,前者增强了信息检索的深度和准确性,后者则提供了更高级的处理能力。
2025-02-19 10:57:25
166
原创 专注于 AI 短剧创作,昆仑万维开源 SkyReels-V1 视频模型
其功能包括文生视频和图生视频,支持 33 种表情和 400 多种动作组合,利用其自研推理框架 SkyReels-Infer 提升了推理效率。该模型的主页介绍表示其通过对千万级高质量影视数据的微调,具备生成电影级光影效果、细腻表情和自然动作的能力。是由昆仑万维开发的开源视频生成模型,专注于 AI 短剧创作。目前,该模型已经开源,并且支持商业用途。
2025-02-19 10:53:22
226
原创 OpenAI 终于要 Open 了?
发起了一项投票,询问社区是希望开源 o3 mini(仅在 GPU 上运行)还是开源一个能在手机上运行的模型。评论中有人高呼投票给 o3 mini,然后等待开源社区将其蒸馏以便在移动端运行,笑死。目前已有超过 12 万次投票,其中 53.9% 的参与者选择了 o3 mini。OpenAI 终于要 Open 了?
2025-02-19 10:48:08
445
原创 StepFun 开源 Step-Video-T2V:300 亿参数文生视频模型震撼发布
昨天开源了其最新的文生视频模型,该模型拥有 300 亿参数,能够生成长达 204 帧的高质量视频。官方建议使用配备 80G 内存的 GPU 进行运行。上体验,不过需要排队,能生成的 8 秒视频,动作流畅,效果非常不错。代码已基于 MIT 许可证开源,支持商业用途。让国产 AI 再次伟大,现在可以在。
2025-02-18 09:31:13
398
原创 腾讯混元 T1 推理模型现已上线腾讯元宝,性能媲美 Deepseek R1
此外,他们还表示将在今年第一季度上线新一代旗舰模型混元 Turbo-S 和混元图生视频模型(HunyuanVideo I2V),进一步扩展其 AI 技术的影响力。宣布其自研推理模型 Hunyuan T1 现已上线腾讯元宝进行灰度测试,性能比肩 Deepseek R1。
2025-02-18 09:29:50
429
原创 MakeAnything:一致性图片序列生成模型
这个模型不仅可以用来生成绘画过程,还能生成炒一个菜的完整过程图片。感觉还是非常有意思的,官方的在线演示目前挂了,但你可以在。是一个开源的模型,专门用于生成一致性图片序列。
2025-02-18 09:28:35
134
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人