张成AI-优快云博客

原创 ERNIE-4.5-VL-28B-A3B-Thinking多模态AI模型深度解析

ERNIE-4.5-VL-28B-A3B-Thinking是百度最新一代多模态AI模型,基于强大的ERNIE-4.5-VL-28B-A3B架构构建。这是一个专门针对视觉-语言理解任务优化的大语言模型,通过大规模中期训练阶段吸收了海量高质量视觉-语言推理数据。

2025-11-12 08:45:25 1344

原创 2025 完整指南:Gemini 2.5 Computer Use 模型 - AI Agent 界面控制的革命性突破

Gemini 2.5 Computer Use 是 Google 基于 Gemini 2.5 Pro 的视觉理解和推理能力构建的专用模型,专门用于控制用户界面。与传统通过结构化 API 进行软件交互不同,该模型可以像人类一样直接与图形用户界面交互。A: 可以,通过添加自定义函数,同时可通过排除不需要的预定义操作。Gemini 2.5 Computer Use 模型代表了 AI agent 技术的重大突破,首次实现了 AI 与图形用户界面的直接交互。

2025-10-08 11:05:53 1287

原创 Qwen3-Max 2025年完整发布解析：阿里巴巴最强AI模型深度评测

Qwen3-Max 是阿里巴巴推出的迄今为止规模最大、能力最强的大语言模型。作为 Qwen3 系列的旗舰产品，该模型在2025年1月正式发布，标志着中国AI技术在全球竞争中的重要里程碑。

2025-09-24 09:15:09 1849

原创 AP2 (Agent Payments Protocol) 使用教程

AP2 (Agent Payments Protocol) 是一个用于代理支付的协议，支持人工在场和人工不在场的商务流程。本教程将详细介绍如何使用 AP2 Python 示例项目。

2025-09-23 16:55:29 787

原创 2025年AI Agent支付完整指南：AP2 Protocol如何重塑智能商务

Google推出的开放AI agent支付协议，解决智能代理商务中的信任和安全问题

2025-09-17 14:59:42 1081

原创 IndexTTS2 综合评测：2025年最强情感语音合成模型深度分析

IndexTTS2 是由 Bilibili 开发的下一代文本转语音模型，于2025年9月8日正式开源。该模型在情感表达和时长控制方面实现重大突破，被社区誉为"最逼真、最具表现力的 TTS 模型"。IndexTTS2 的发布标志着文本转语音技术进入新阶段，其在情感表达和时长控制方面的突破为影视制作、内容创作等领域带来了革命性工具。通过这一技术成果，Bilibili 展现了强大的 AI 研发能力，为公司未来在 AIGC 赛道的发展奠定了坚实基础。关注 IndexTTS2 后续版本更新。

2025-09-12 08:34:45 1237

原创基于A2A和ADK的内容规划代理

基于Google ADK和A2A协议的智能内容规划代理，根据高层次的内容描述，创建详细的内容大纲。

2025-09-08 18:09:42 960

原创 41个开源大语言模型基准测试报告

这是一个大规模的开源大语言模型评估项目，使用lm-evaluation-harness库对41个开源LLMs进行了19项基准测试。所有评估都在个人计算机上本地完成，展示了不同模型在各种任务中的性能表现。

2025-09-07 14:36:21 1529

原创 Qwen3-Max-Preview 发布分析：万亿参数模型突破与市场影响（2025年9月最新）

Qwen3-Max-Preview 是阿里巴巴 Qwen 团队于2025年9月5日发布的最新旗舰大语言模型。这是 Qwen 系列中首个参数量超过1万亿的模型，标志着中国AI技术在超大规模模型领域的重大突破。

2025-09-06 08:17:13 1086

原创 Kimi K2-0905 完整评测指南 - 万亿参数开源模型的重大突破

Kimi K2-0905 是由 Moonshot AI 开发的最新版本大语言模型，于2025年9月发布。技术领先：万亿参数MoE架构，256K超长上下文性能优异：编程基准测试接近顶级闭源模型开源优势：可本地部署，成本可控生态丰富：多平台支持，集成方便。

2025-09-05 16:43:51 2761

原创腾讯Hunyuan-MT-7B翻译模型完全指南：2025年开源AI翻译的新标杆

7B参数的基础翻译模型，专注于将源语言文本准确翻译为目标语言：业界首个开源翻译集成模型，通过融合多个翻译结果产生更高质量的输出💡重要成就在WMT25全球机器翻译竞赛中，该模型在参与的31个语言类别中获得了30个第一名，击败了Google、OpenAI等国际巨头的翻译模型。腾讯混元翻译模型代表了2025年开源AI翻译的新标杆，通过创新的双模型架构和完整的训练框架，在全球翻译竞赛中取得了突破性成绩。

2025-09-03 09:01:28 4716

原创基于 BeeAI 框架的 A2A 服务实践文档

本报告基于 BeeAI 框架的 A2A 服务实践文档

2025-09-02 16:43:12 1090

原创 OpenAI GPT-realtime 实时语音 API 完整指南：2025年语音AI的革命性突破

OpenAI 实时 API (Realtime API) 全面开放，推出最先进的 gpt-realtime 模型

2025-08-29 07:06:50 1510

原创集成 A2A Protocol - BeeAI 框架的智能代理通信解决方案

使用 A2A 协议代替 ACP，是 BeeAI更好的选择，减少协议的分裂，提升生态系统的整合度。

2025-08-28 14:20:16 908

原创使用 Gemini CLI作为 Claude Code的 subagent

把 Gemini CLI 当做 Claude Code 的 subagent 使用。

2025-08-25 20:37:03 984

原创 2025年完整指南：Qoder AI 代码编辑器深度评测与使用指南

Qoder 是阿里巴巴云团队最新发布的下一代智能编程平台（Agentic Coding Platform），专门解决传统 AI 编程工具在实际项目中表现不佳的痛点。与其他 AI 编程助手不同，Qoder 不仅仅是代码补全工具，而是一个能够深度理解项目架构的智能编程伙伴。

2025-08-22 09:56:47 13994 8

原创 2025年完整指南：字节跳动 Seed-OSS-36B 开源大模型深度解析

Seed-OSS 是字节跳动 Seed 团队发布的开源大语言模型系列，专为长上下文、推理、智能体和通用能力而设计。

2025-08-21 08:50:25 2196

原创 DeepSeek V3.1 完整评测分析：2025年AI编程新标杆

DeepSeek V3.1 是 DeepSeek AI 公司于 2025年8月19日悄然发布的最新大语言模型。这是一个混合推理模型，将传统的对话能力与推理能力整合到单一模型中，代表了 AI 模型架构的重要演进。

2025-08-20 20:02:20 2369

原创 Qwen-Image-Edit图像编辑模型完整指南

Qwen-Image-Edit是阿里巴巴通义千问团队最新发布的图像编辑基础模型，基于20B参数的Qwen-Image模型构建。该模型将Qwen-Image独特的文本渲染能力扩展到图像编辑任务，实现了前所未有的精确文本编辑功能。

2025-08-19 10:04:32 4195 1

原创 Gemini CLI 2025年8月重大更新：VSCode集成与MCP协议增强

Gemini CLI 2025年8月重大更新：VSCode集成与MCP协议增强

2025-08-14 10:16:47 1925

原创使用 A2A 和 AnyAgent 实现对抗性智能体仿真系统

本项目展示了一个基于 A2A 协议的对抗性多智能体仿真系统。该系统包含两个竞争性智能体：攻击者（红队）和防御者（蓝队），它们进行策略性的智力对抗。

2025-08-12 16:28:02 1176

原创 A2A 多 Agents 示例：数字猜谜游戏

基于A2A协议的三代理数字猜谜游戏示例。无需LLM，本地运行，展示代理间协作通信的核心概念。

2025-08-07 15:11:48 553

原创 Genie 3 完整指南：Google DeepMind 如何重新定义 AI 世界模型

Genie 3 实现了720p分辨率下数分钟的实时交互式世界生成

2025-08-06 14:17:07 3177 3

原创 OpenAI GPT-OSS：首个可在笔记本上运行的推理模型

OpenAI 发布首批开源权重语言模型 gpt-oss-120b 和 gpt-oss-20b

2025-08-06 08:38:18 1962

原创 Gemini CLI最近更新

Gemini CLI最近的更新重点

2025-08-05 20:29:57 796

原创 Qwen-Image完整指南：2025年最强文本渲染AI图像生成模型深度解析

Qwen-Image是首个真正掌握复杂中英文文本渲染的20B参数图像生成模型

2025-08-05 10:26:42 5526

原创 A2A与MCP协议关系探讨：来自开发者社区的深度讨论

深入分析A2A与MCP协议关系的社区专家讨论。理解两者的核心差异、互补作用，以及在代理间通信与工具标准化之间如何选择合适的协议。

2025-08-04 17:25:20 1073

原创 Qwen3-30B-A3B-Thinking-2507 推理模型深度评测

突破性推理能力：Qwen3-30B-A3B-Thinking-2507 在数学、编程和逻辑推理方面显著提升，AIME25 得分达到 85.0

2025-07-31 21:14:55 2031

原创 2025年完整指南：Agent2Agent (A2A) 协议高级特性详解（第二部分）

A2A协议完整指南第二部分，深入解析流式操作、异步处理、扩展机制和任务生命周期管理等高级特性，助您构建更强大的AI智能体协作系统。

2025-07-30 09:38:13 949

原创如何选择最佳开源AI模型——GLM 4.5 全面解析与对比

GLM 4.5 是由Zhipu AI团队发布的最新一代开源大模型，采用混合专家（MoE）架构，专为智能体（AI Agent）场景设计。其355B参数的旗舰版与106B参数的GLM-4.5-Air轻量版，均支持多语言、推理、编码、工具调用等多项能力，满足复杂任务需求。

2025-07-29 15:52:01 1788

原创 Qwen3-235B-A22B-Thinking-2507 - 开源思维推理模型的新标杆

Qwen3-235B-A22B-Thinking-2507 是阿里巴巴通义千问团队推出的最新一代大型语言模型，专门针对思维推理能力进行了深度优化。这个模型代表了开源 AI 领域在复杂推理任务上的重大突破。

2025-07-25 20:38:11 2426

原创如何使用 Kiro 进行 Java 开发

Kiro 为 Java 项目提供强大的 AI 辅助开发能力，帮助您更高效地编写、调试和维护 Java 代码。

2025-07-25 15:00:50 2360

原创 2025年完整指南：Agent2Agent (A2A) 协议 - AI智能体协作的新标准

A2A（Agent2Agent Protocol）是首个专为AI智能体间通信设计的开放标准协议，解决不同组织开发的AI智能体协作难题。本指南涵盖A2A协议核心概念、技术实现、实际应用场景，以及Python、JavaScript、Java等多种语言的实践案例，助您快速掌握智能体协作开发。

2025-07-24 09:29:05 1214

原创 Qwen3 Coder——最强开源编程模型

Qwen3-Coder-480B-A35B-Instruct 是目前最强大的开源 Agentic 编码大模型，支持超长上下文和高效多轮交互，适用于复杂代码和自动化任务。

2025-07-23 08:03:11 3223 1

原创 Qwen3-235B-A22B-Instruct-2507：模型简介、基准对比与社区评价

Qwen3-235B-A22B-Instruct-2507 是阿里 Qwen 团队于2025年7月发布的旗舰 Mixture-of-Experts（MoE）大语言模型。该模型拥有2350亿参数（每次推理激活22B），在指令遵循、逻辑推理、数学、科学、编程、工具使用和多语言理解等方面表现卓越。模型原生支持高达256K（262,144）token的上下文窗口，非常适合长文本和复杂任务场景。

2025-07-22 09:19:46 2424