- 博客(80)
- 收藏
- 关注
原创 ERNIE-4.5-VL-28B-A3B-Thinking多模态AI模型深度解析
ERNIE-4.5-VL-28B-A3B-Thinking是百度最新一代多模态AI模型,基于强大的ERNIE-4.5-VL-28B-A3B架构构建。这是一个专门针对视觉-语言理解任务优化的大语言模型,通过大规模中期训练阶段吸收了海量高质量视觉-语言推理数据。
2025-11-12 08:45:25
1252
原创 2025 完整指南:Gemini 2.5 Computer Use 模型 - AI Agent 界面控制的革命性突破
Gemini 2.5 Computer Use 是 Google 基于 Gemini 2.5 Pro 的视觉理解和推理能力构建的专用模型,专门用于控制用户界面。与传统通过结构化 API 进行软件交互不同,该模型可以像人类一样直接与图形用户界面交互。A: 可以,通过添加自定义函数,同时可通过排除不需要的预定义操作。Gemini 2.5 Computer Use 模型代表了 AI agent 技术的重大突破,首次实现了 AI 与图形用户界面的直接交互。
2025-10-08 11:05:53
1046
原创 Qwen3-Max 2025年完整发布解析:阿里巴巴最强AI模型深度评测
Qwen3-Max 是阿里巴巴推出的迄今为止规模最大、能力最强的大语言模型。作为 Qwen3 系列的旗舰产品,该模型在2025年1月正式发布,标志着中国AI技术在全球竞争中的重要里程碑。
2025-09-24 09:15:09
1645
原创 AP2 (Agent Payments Protocol) 使用教程
AP2 (Agent Payments Protocol) 是一个用于代理支付的协议,支持人工在场和人工不在场的商务流程。本教程将详细介绍如何使用 AP2 Python 示例项目。
2025-09-23 16:55:29
738
原创 2025年AI Agent支付完整指南:AP2 Protocol如何重塑智能商务
Google推出的开放AI agent支付协议,解决智能代理商务中的信任和安全问题
2025-09-17 14:59:42
1013
原创 IndexTTS2 综合评测:2025年最强情感语音合成模型深度分析
IndexTTS2 是由 Bilibili 开发的下一代文本转语音模型,于2025年9月8日正式开源。该模型在情感表达和时长控制方面实现重大突破,被社区誉为"最逼真、最具表现力的 TTS 模型"。IndexTTS2 的发布标志着文本转语音技术进入新阶段,其在情感表达和时长控制方面的突破为影视制作、内容创作等领域带来了革命性工具。通过这一技术成果,Bilibili 展现了强大的 AI 研发能力,为公司未来在 AIGC 赛道的发展奠定了坚实基础。关注 IndexTTS2 后续版本更新。
2025-09-12 08:34:45
1145
原创 41个开源大语言模型基准测试报告
这是一个大规模的开源大语言模型评估项目,使用lm-evaluation-harness库对41个开源LLMs进行了19项基准测试。所有评估都在个人计算机上本地完成,展示了不同模型在各种任务中的性能表现。
2025-09-07 14:36:21
1401
原创 Qwen3-Max-Preview 发布分析:万亿参数模型突破与市场影响(2025年9月最新)
Qwen3-Max-Preview 是阿里巴巴 Qwen 团队于2025年9月5日发布的最新旗舰大语言模型。这是 Qwen 系列中首个参数量超过1万亿的模型,标志着中国AI技术在超大规模模型领域的重大突破。
2025-09-06 08:17:13
1038
原创 Kimi K2-0905 完整评测指南 - 万亿参数开源模型的重大突破
Kimi K2-0905 是由 Moonshot AI 开发的最新版本大语言模型,于2025年9月发布。技术领先:万亿参数MoE架构,256K超长上下文性能优异:编程基准测试接近顶级闭源模型开源优势:可本地部署,成本可控生态丰富:多平台支持,集成方便。
2025-09-05 16:43:51
2451
原创 腾讯Hunyuan-MT-7B翻译模型完全指南:2025年开源AI翻译的新标杆
7B参数的基础翻译模型,专注于将源语言文本准确翻译为目标语言:业界首个开源翻译集成模型,通过融合多个翻译结果产生更高质量的输出💡重要成就在WMT25全球机器翻译竞赛中,该模型在参与的31个语言类别中获得了30个第一名,击败了Google、OpenAI等国际巨头的翻译模型。腾讯混元翻译模型代表了2025年开源AI翻译的新标杆,通过创新的双模型架构和完整的训练框架,在全球翻译竞赛中取得了突破性成绩。
2025-09-03 09:01:28
3960
原创 OpenAI GPT-realtime 实时语音 API 完整指南:2025年语音AI的革命性突破
OpenAI 实时 API (Realtime API) 全面开放,推出最先进的 gpt-realtime 模型
2025-08-29 07:06:50
1399
原创 集成 A2A Protocol - BeeAI 框架的智能代理通信解决方案
使用 A2A 协议代替 ACP,是 BeeAI更好的选择,减少协议的分裂,提升生态系统的整合度。
2025-08-28 14:20:16
886
原创 使用 Gemini CLI作为 Claude Code的 subagent
把 Gemini CLI 当做 Claude Code 的 subagent 使用。
2025-08-25 20:37:03
827
原创 2025年完整指南:Qoder AI 代码编辑器深度评测与使用指南
Qoder 是阿里巴巴云团队最新发布的下一代智能编程平台(Agentic Coding Platform),专门解决传统 AI 编程工具在实际项目中表现不佳的痛点。与其他 AI 编程助手不同,Qoder 不仅仅是代码补全工具,而是一个能够深度理解项目架构的智能编程伙伴。
2025-08-22 09:56:47
12546
8
原创 2025年完整指南:字节跳动 Seed-OSS-36B 开源大模型深度解析
Seed-OSS 是字节跳动 Seed 团队发布的开源大语言模型系列,专为长上下文、推理、智能体和通用能力而设计。
2025-08-21 08:50:25
2015
原创 DeepSeek V3.1 完整评测分析:2025年AI编程新标杆
DeepSeek V3.1 是 DeepSeek AI 公司于 2025年8月19日悄然发布的最新大语言模型。这是一个混合推理模型,将传统的对话能力与推理能力整合到单一模型中,代表了 AI 模型架构的重要演进。
2025-08-20 20:02:20
1818
原创 Qwen-Image-Edit图像编辑模型完整指南
Qwen-Image-Edit是阿里巴巴通义千问团队最新发布的图像编辑基础模型,基于20B参数的Qwen-Image模型构建。该模型将Qwen-Image独特的文本渲染能力扩展到图像编辑任务,实现了前所未有的精确文本编辑功能。
2025-08-19 10:04:32
3747
1
原创 Gemini CLI 2025年8月重大更新:VSCode集成与MCP协议增强
Gemini CLI 2025年8月重大更新:VSCode集成与MCP协议增强
2025-08-14 10:16:47
1753
原创 使用 A2A 和 AnyAgent 实现对抗性智能体仿真系统
本项目展示了一个基于 A2A 协议的对抗性多智能体仿真系统。该系统包含两个竞争性智能体:攻击者(红队)和防御者(蓝队),它们进行策略性的智力对抗。
2025-08-12 16:28:02
1137
原创 Genie 3 完整指南:Google DeepMind 如何重新定义 AI 世界模型
Genie 3 实现了720p分辨率下数分钟的实时交互式世界生成
2025-08-06 14:17:07
2946
3
原创 OpenAI GPT-OSS:首个可在笔记本上运行的推理模型
OpenAI 发布首批开源权重语言模型 gpt-oss-120b 和 gpt-oss-20b
2025-08-06 08:38:18
1911
原创 Qwen-Image完整指南:2025年最强文本渲染AI图像生成模型深度解析
Qwen-Image是首个真正掌握复杂中英文文本渲染的20B参数图像生成模型
2025-08-05 10:26:42
5023
原创 A2A与MCP协议关系探讨:来自开发者社区的深度讨论
深入分析A2A与MCP协议关系的社区专家讨论。理解两者的核心差异、互补作用, 以及在代理间通信与工具标准化之间如何选择合适的协议。
2025-08-04 17:25:20
1058
原创 Qwen3-30B-A3B-Thinking-2507 推理模型深度评测
突破性推理能力:Qwen3-30B-A3B-Thinking-2507 在数学、编程和逻辑推理方面显著提升,AIME25 得分达到 85.0
2025-07-31 21:14:55
1856
原创 2025年完整指南:Agent2Agent (A2A) 协议高级特性详解(第二部分)
A2A协议完整指南第二部分,深入解析流式操作、异步处理、扩展机制和任务生命周期管理等高级特性,助您构建更强大的AI智能体协作系统。
2025-07-30 09:38:13
907
原创 如何选择最佳开源AI模型——GLM 4.5 全面解析与对比
GLM 4.5 是由Zhipu AI团队发布的最新一代开源大模型,采用混合专家(MoE)架构,专为智能体(AI Agent)场景设计。其355B参数的旗舰版与106B参数的GLM-4.5-Air轻量版,均支持多语言、推理、编码、工具调用等多项能力,满足复杂任务需求。
2025-07-29 15:52:01
1662
原创 Qwen3-235B-A22B-Thinking-2507 - 开源思维推理模型的新标杆
Qwen3-235B-A22B-Thinking-2507 是阿里巴巴通义千问团队推出的最新一代大型语言模型,专门针对思维推理能力进行了深度优化。这个模型代表了开源 AI 领域在复杂推理任务上的重大突破。
2025-07-25 20:38:11
2236
原创 如何使用 Kiro 进行 Java 开发
Kiro 为 Java 项目提供强大的 AI 辅助开发能力,帮助您更高效地编写、调试和维护 Java 代码。
2025-07-25 15:00:50
1559
原创 2025年完整指南:Agent2Agent (A2A) 协议 - AI智能体协作的新标准
A2A(Agent2Agent Protocol)是首个专为AI智能体间通信设计的开放标准协议,解决不同组织开发的AI智能体协作难题。本指南涵盖A2A协议核心概念、技术实现、实际应用场景,以及Python、JavaScript、Java等多种语言的实践案例,助您快速掌握智能体协作开发。
2025-07-24 09:29:05
1108
原创 Qwen3 Coder——最强开源编程模型
Qwen3-Coder-480B-A35B-Instruct 是目前最强大的开源 Agentic 编码大模型,支持超长上下文和高效多轮交互,适用于复杂代码和自动化任务。
2025-07-23 08:03:11
3075
1
原创 Qwen3-235B-A22B-Instruct-2507:模型简介、基准对比与社区评价
Qwen3-235B-A22B-Instruct-2507 是阿里 Qwen 团队于2025年7月发布的旗舰 Mixture-of-Experts(MoE)大语言模型。该模型拥有2350亿参数(每次推理激活22B),在指令遵循、逻辑推理、数学、科学、编程、工具使用和多语言理解等方面表现卓越。模型原生支持高达256K(262,144)token的上下文窗口,非常适合长文本和复杂任务场景。
2025-07-22 09:19:46
2257
原创 如何使用 Kiro 进行 Python 开发
Kiro 为 Python 项目提供强大的 AI 辅助开发功能,帮助您更高效地编写、调试和维护代码。
2025-07-21 15:33:27
1638
原创 Kiro Hooks 完整文档指南
Kiro Hooks*是强大的自动化工具,通过在 IDE 中发生特定事件时自动执行预定义的 agent 操作来简化您的开发工作流程。使用 hooks,您无需手动请求例行任务,并确保代码库的一致性。
2025-07-18 11:26:08
1321
原创 Kiro vs Cursor: AI IDE 终极对比指南
随着生成式 AI 革命性地改变了我们编写代码的方式,新一代 AI 驱动的集成开发环境 (IDE) 正在崛起。**Kiro** 和 **Cursor** 代表了这一运动的前沿,但它们采用了截然不同的方法。
2025-07-17 15:32:59
1896
6
原创 A2A协议规范(Python)
A2A协议Python实现规范的全面指南,涵盖代理卡片、消息传递、任务管理、安全认证等核心功能的数据结构和对象关系,为开发者提供完整的协议实现指南。
2025-07-16 13:45:33
1121
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅