最近,满地都是AI Agent,仅最近半个月,就爆出了10多款。

来自近期在上海分享的PPT
AI Agent,现已成为继LLM(Large Language Model,大语言模型)后的时髦新宠,各家厂商疯狂推Agent犹如过江之鲫。
那么问题来了,到底哪个Agent更胜一筹?今天,我们就来给大家横向测评一下。

关于测评方法
我选择了5款热门的通用型AI Agent,分别是Genspark、MiniMax Agent、Flowith Neo、Manus和扣子空间。
对于Agent来说,感知、思考、行动 、循环四个步骤中LLM都扮演了重要的角色。
如果分开每个步骤来对比,就变成了对比LLM的优劣。而Agent是一个框架,所以我们不去管它的任务处理过程如何,而是仅针对交付结果进行评判(本次测试皆为标准token投入)。
每个Agent,我选了三个不同领域的任务进行统一测试:
1.检索微信公众号平台2025年来的热门AI话题前5,并总结原因分别输出为pdf、图表和html格式。(测试任务拆解、效率与准确性、多模态输出)
2.为我规划一个预算不超过3000元、4天3晚的成都旅游计划,必须包含川剧变脸、宽窄巷子和熊猫基地。(测试逻辑严谨和工具调用)
3.这是我家客厅照片,推荐合适的改造风格,并输出新风格的3D布置草图或改造建议图示。(测试图像理解、空间感知、创意输出、图文匹配)

横评3个Case
1)总结热门AI话题
先来一个最简单的,测试最基本的任务拆解能力,同时也看下效率和准确性。
Prompt:检索微信公众号平台2025年来的热门AI话题前5,并总结原因分别输出为pdf、图表和html格式。
- 1.1)Genspark耗时12分43秒。
我们先来看下它输出的网页。
Genspark的HTML文件做得很规整,既搜罗了5大热门话题,还深度分析了原因,内容信息也比较准确。
<上下滑动图片查看全部内容>
可视化图表也完成得不错,无论是数据收集方向还是图表种类的使用都非常丰富,排版也很好看。
<上下滑动图片查看全部内容>
PDF文件可读性也不错,它对颜色的处理很到位,让人一眼就能看出每个段落或每个话题是从哪开始,到哪结束。
<上下滑动图片查看全部内容>
- 1.2)扣子空间耗时10分15秒。
扣子空间找到的5个热门话题跟Genspark不一样,看来每个Agent都有自己的理解。
但是可以明显看出,扣子空间没有Genspark细致,没有对单个话题进行原因分析,只是在最后做了整体分析。
<上下滑动图片查看全部内容>
图表看起来就很朴素了,实在不知道该如何评价,如果非要说的话,只能说这也算是表。

虽说PDF只是一种格式,但如果全是文字,不知道的还以为在COS那个Word文档呢。
还有,我提示词里要的原因分析,扣子空间你给我干哪去了……

- 1.3)Manus耗时11分49秒。
整体要求达到了,既罗列了5个最热话题,也对具体问题进行了分析,算是达标。
<上下滑动图片查看全部内容>
然后,用了三种图表来展示****各个热门话题的热度对比,非常直观。



不过,PDF部分……又给我干哪儿去了,不是说好的PDF吗?这不跟Word文档有啥区别,不过好歹分析的还算细致。

- 1.4)MiniMax Agent耗时16分03秒。
MiniMax把这五个话题倒是列出来了,但是没有分析原因,排版也缺点美感。

图表…咋说呢,可能这就是MInimax Agent还是Bate版的原因吧。。。

虽然又是一版Word文档的PDF,但是该有的内容都有。热门话题简介和流行原因都说的还算明白,不过读起来,一股子AI味。
<上下滑动图片查看全部内容>
- 1.5)Flowith Neo耗时19分27秒。
虽然耗时有点长,但是最终的结果还不错,不仅分析了话题流行的原因,还给出了相关的数据和案例支撑,研究得非常细致。
<上下滑动图片查看全部内容>
图表整体来说,也算中规中矩(但说实话,比起前面的有些图表来说,普通也算优秀了
),还添加了话题关联度分析图,我觉得很有新意。
<上下滑动图片查看全部内容>
PDF文件依旧是纯文字版,但是文字详实,分析有理有据,让我来写我怕是写不出来。
<上下滑动图片查看全部内容>
总的来说,这个任务我最喜欢的是Genspark,对于提示词的理解到位,输出的内容质量和形式也还不错(包括文字优化和视觉优化),在5款Agent中算是比较突出的。
2)旅游规划
再来测试下逻辑严谨性、工具调用方面。
Prompt:为我规划一个预算不超过3000元、4天3晚的成都旅游计划,必须包含川剧变脸、宽窄巷子和熊猫基地。
- 2.1)Genspark耗时3分27秒。
整体规划中对景点和价格比较注重,细致罗列了各项支出,但是对游览时长和交通时长没有太多交代。
<上下滑动图片查看全部内容>
- 2.2)扣子空间耗时2分56秒。
主要的景点,一个没有落下,但是对于预算规划有些敷衍,各景点、各美食的价格也没怎么交代,交通路线也没怎么规划。
<上下滑动图片查看全部内容>
- 2.3)manus耗时3分15秒。
Manus整体的视觉效果非常好,很清晰,我想要的景点也都囊括了,而且还有详细的交通介绍与美食价格介绍。毕竟去旅游,有个参考价格还是蛮重要的。
<上下滑动图片查看全部内容>
- 2.4)MiniMax Agent耗时22分45秒。
跟上一个任务的“拉跨”表现相比,MiniMax Agent在第二个任务里大为改观,整个旅游计划从景点,到交通,再到价格,都给我讲得明明白白的。
还给出了我想去的景点的详细介绍、美食详细介绍、住宿参考等。整体的风格非常小红书,对于旅游攻略来说,非常有用。
<上下滑动图片查看全部内容>
- 2.5)Flowith耗时17分21秒。
Flowith的时间控制,在这几份旅游计划中算是非常精细了。表格式的计划让人一眼就懂,还给出了很多诸如住宿、餐饮、景点等有用信息,非常不错。
整体看来可能就是风格有点素,像是旅行团的官方文件。
<上下滑动图片查看全部内容>
总的来说,第二个任务花费时间较长的两个Agent所做出的效果也算对得起花费的时间,非要选个我觉得结果最好的话,我认为是MiniMax Agent。
3)创意设计
最后,测试下图像理解、空间感知、创意输出、图文匹配。
Prompt:这是我家客厅照片,推荐合适的改造风格,并输出新风格的3D布置草图或改造建议图示。

- 3.1)Genspark耗时5分43秒。
Genspark的识图能力很优秀,空间感很好,它生成的图片布局跟我给它的图片布局一致。出图效果也很好,图片风格和文字描述匹配。
<上下滑动图片查看全部内容>
- 3.2)扣子空间耗时3分18秒。
扣子空间给的风格图,看起来都很好看。但是没有一张是按照原图的空间布局来设计的,应该是没有理解原图和我的Prompt。
<上下滑动图片查看全部内容>
- 3.3)Manus耗时5分06秒。
Manus的图片理解也很不错,生成的图片空间布局与原图一致,效果也很不错,就是有点太样板间了。
<上下滑动图片查看全部内容>



- 3.4)MiniMax Agent耗时21分17秒。
方案给得非常多,数据罗列也非常仔细,可惜就是没有读懂我的图。那,所有工作不是白费嘛……
<上下滑动图片查看全部内容>
- 3.5)Flowith耗时15分45秒。
虽然Flowith只给出了一种风格,但是我从它生的图和文字表达来看,它读懂了原图的空间布局。而且装修方案也很细致,各方面都有考虑到。
<上下滑动图片查看全部内容>
最后一个任务,最优秀的当属Flowith,真的是很细致的分析了从色彩到灯光等各个方面的选择,可以直接拿来当装修参考方案了。

写在最后
从3个测试任务来看,Genspark这个Agent发挥最为稳定,每个任务的完成度都很高。
Manus则是最平均的那个,每个任务都能做,而且都在及格线以上。
MiniMax Agent和扣子空间,虽然在某些任务上不尽如意,但都有自己非常擅长的地方。
Flowith Neo则稍逊Genspark、略胜Manus,但是它每个任务的时长都比较长,使用这款Agent需要点耐心。
当然,现阶段这些Agent都支持大家免费体验。所以,你不妨把一个任务放到各家Agent里都去试试。说不定,会有意想不到的事情发生
。
毕竟,这是AI随机之美。
想入门 AI 大模型却找不到清晰方向?备考大厂 AI 岗还在四处搜集零散资料?别再浪费时间啦!2025 年 AI 大模型全套学习资料已整理完毕,从学习路线到面试真题,从工具教程到行业报告,一站式覆盖你的所有需求,现在全部免费分享!
👇👇扫码免费领取全部内容👇👇

一、学习必备:100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT,帮你看透 AI 趋势
想了解大模型的行业动态、商业落地案例?大模型电子书?这份资料帮你站在 “行业高度” 学 AI:
1. 100+本大模型方向电子书

2. 26 份行业研究报告:覆盖多领域实践与趋势
报告包含阿里、DeepSeek 等权威机构发布的核心内容,涵盖:

- 职业趋势:《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》;
- 商业落地:《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》;
- 领域细分:《AGI 在金融领域的应用报告》《AI GC 实践案例集》;
- 行业监测:《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。
3. 600+套技术大会 PPT:听行业大咖讲实战
PPT 整理自 2024-2025 年热门技术大会,包含百度、腾讯、字节等企业的一线实践:

- 安全方向:《端侧大模型的安全建设》《大模型驱动安全升级(腾讯代码安全实践)》;
- 产品与创新:《大模型产品如何创新与创收》《AI 时代的新范式:构建 AI 产品》;
- 多模态与 Agent:《Step-Video 开源模型(视频生成进展)》《Agentic RAG 的现在与未来》;
- 工程落地:《从原型到生产:AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。
二、求职必看:大厂 AI 岗面试 “弹药库”,300 + 真题 + 107 道面经直接抱走
想冲字节、腾讯、阿里、蔚来等大厂 AI 岗?这份面试资料帮你提前 “押题”,拒绝临场慌!

1. 107 道大厂面经:覆盖 Prompt、RAG、大模型应用工程师等热门岗位
面经整理自 2021-2025 年真实面试场景,包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题,每道题都附带思路解析:

2. 102 道 AI 大模型真题:直击大模型核心考点
针对大模型专属考题,从概念到实践全面覆盖,帮你理清底层逻辑:

3. 97 道 LLMs 真题:聚焦大型语言模型高频问题
专门拆解 LLMs 的核心痛点与解决方案,比如让很多人头疼的 “复读机问题”:

三、路线必明: AI 大模型学习路线图,1 张图理清核心内容
刚接触 AI 大模型,不知道该从哪学起?这份「AI大模型 学习路线图」直接帮你划重点,不用再盲目摸索!

路线图涵盖 5 大核心板块,从基础到进阶层层递进:一步步带你从入门到进阶,从理论到实战。

L1阶段:启航篇丨极速破界AI新时代
L1阶段:了解大模型的基础知识,以及大模型在各个行业的应用和分析,学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段:攻坚篇丨RAG开发实战工坊
L2阶段:AI大模型RAG应用开发工程,主要学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段:跃迁篇丨Agent智能体架构设计
L3阶段:大模型Agent应用架构进阶实现,主要学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造Agent智能体。

L4阶段:精进篇丨模型微调与私有化部署
L4阶段:大模型的微调和私有化部署,更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调,并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。

L5阶段:专题集丨特训篇 【录播课】

四、资料领取:全套内容免费抱走,学 AI 不用再找第二份
不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:
👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口?别犹豫,这份免费资料就是你的 “起跑线”!
540

被折叠的 条评论
为什么被折叠?



