
AI实例评测
文章平均质量分 66
通过各方面的实例评测当前主流AI大模型的能力。
xyzcto
从开发到架构到管理,Scrum敏捷实践者
展开
-
AI大模型2025实例评测--数学能力
豆包,DeepSeek R1,讯飞星火均答对。豆包和DeepSeek思路类似,DeepSeek给出了详细的推理过程,类似人类做题时的思考过程,DeepSeek提到记得类似的题使用共轭根的方法,说明DeepSeek有训练类似的题。讯飞星火给出的答案9是对的,但得出答案太突然,毫无逻辑,纯属猜。ChatGPT o1有些令人失望,似乎没有类似题目的训练,试图硬算,它知道会溢出,于是无法给出答案。原创 2025-02-14 17:57:09 · 577 阅读 · 0 评论 -
AI大模型2025实例评测--化学推理题
本人倾向的答案是D是酸,A是碱。基于这个答案,豆包,Kimi,DeepSeek 正确。元芳,你怎么看?原创 2025-02-14 17:59:33 · 642 阅读 · 0 评论 -
AI大模型2025实例测评--逻辑推理能力
本次测评旨在对当前主流的 AI 大模型进行客观、公正的逻辑推理能力测评。包括以下模型:1.文心一言2.豆包3.通义千问4.KIMI5.Copilot6.ChatGPT7.DeepSeek R1 , Grok 3原创 2025-01-22 16:50:01 · 10396 阅读 · 6 评论 -
AI内容检测工具汇总
有时我们需要检测一段内容是否由AI生成的,可以使用哪些工具呢?本文将向你介绍几种工具。为测试这些工具,我用以下提示词,让文心一言生成一段中文文本进行测试。Human Score 为0 表示检测为AI生成。需要登陆才能使用,对中文检测不是很理想。免费字数限制在80,对中文文本检测失败。判断为100%AI生成。原创 2025-02-11 23:37:00 · 298 阅读 · 0 评论 -
AI大模型2025实例测评--语文能力
成语接龙只有通义千问完全正确,豆包和DeepSeek第一次都忽略了前后鼻音的差别,经过提示,第二次正确。古诗词知识通义千问有点离谱,文心、豆包、Kimi、讯飞都对了。ChatGPT的表现有点出乎意料,ChatGPT可能对于中文知识库的训练不够。后续将测试代码生成以及SQL生成,期待ChatGPT的表现。原创 2025-02-04 21:44:36 · 788 阅读 · 0 评论