目录
前言
去年我用deepseek2.5的时候就说在一些场景(Blender python api编程),deepseek2.5秒杀所有大模型,所以我当时在一些“论坛”吹捧deepseek,当时网友说我是不是收了deepseek钱了
2025年1月19日的时候我说deepseek的深度推理很不好用(诸如无限重复、可读性差和语言混合等),v3也不是完全吊打其它模型,让后网友说我是不是收了美国钱了,当然是1月20日后回复我的。
deepseek在1月20日发布的R1确实很惊艳,但对于大模型由于训练集,参数,算法的不同多少都会有一些差异,作为用户,往常只能通过搜索引擎找到答案,现在可能需要同时向多家AI和搜索引擎提问来得到想要的答案,有时能更快的解决问题,有时会带来更多无效尝试。
这篇文章我从过年开始写,2月下旬才抽空写完,这中间发生了很多事情,例如qwen2.5max(我用起来一般),gork-3(接口有点贵,没怎么试),google-gemini-2.0(中文支持很差),总的来说其实各家模型各有优势,并没有谁全方面吊打另一家的情况。
测试原则
- 本测试不考虑prompt合理性,因为使用一样的prompt所以一视同仁
- 不考虑o1和r1的推理特性带来的额外收益,主观场景无法评分,我们推理的目的还是为了结果(至少我注重结果)
- 无额外上下文(不懂的可以理解为,未开启互联网搜索,且不会再一条会话上持续)
对比参数
OpenAI,Claude:poe.com,自建机器人
DeepSeek:API,自建dify,(Chat模型统一选择deepseek-chat,根据官方文档2.5版本后两个选项背后的模型一样,如果不一样这里我测的是chat而不是code)
统一系统提示词(除了o3-mini系列和R1)
系统提示词参考智谱调试台默认提示词
你是一个乐于解答各种问题的助手,你的任务是为用户提供专业、准确、有见地的建议。
接口参数
POE平台只提供了一个温度参数可调,我不清楚背后对应的是什么参数
- Chat模型
- GPT4o: POE平台默认,温度:0.35
- Claude-3.5-Sonnet: POE平台默认,温度:0.5
- DeepSeek-V3: top_p: 0.5 其它:默认值
- 深度推理
- GPTo1: POE平台默认,温度:0.35
- DeepSeek-R1: api默认值
- GPTo3-mini: POE默认参数,默认系统提示词(POE暂不支持自定义)
- GPTo3-mini-high: POE默认参数,默认系统提示词(POE暂不支持自定义)
开发场景
问题:Blender Python脚本 简单处理
prompt:
blender版本: 3.6
python版本: 3.10
基于blender python api写一个脚本
把一个立方体变成一个渐变色的球体
- 评分标准
- 变成球体:+0.5
- 添加渐变材质:+1
- 脚本报错:-0.5
| deepseek-v3 | gpt4o202411 | Claude3.5Sonnet20241022 | o1 | r1 | o3-mini | o3-mini-high |
|---|---|---|---|---|---|---|
| 0.5 | 0 | 1.5 | -0.5 | 1.5 | 1 | 1.5 |
问题:用最短的代码帮我写一个html文件,打开即玩的贪吃蛇
用最短的代码帮我写一个html文件,打开即玩的贪吃蛇
使用较新版本的edge,你无需考虑旧游览器兼容性

最低0.47元/天 解锁文章
1576

被折叠的 条评论
为什么被折叠?



