实战对比：DeepSeek vs ChatGPT，谁更胜一筹？

原创

已于 2025-02-24 00:33:42 修改 · 1.3k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#chatgpt #python #人工智能 #ai

于 2025-02-22 05:04:56 首次发布

前言

去年我用deepseek2.5的时候就说在一些场景（Blender python api编程），deepseek2.5秒杀所有大模型，所以我当时在一些“论坛”吹捧deepseek，当时网友说我是不是收了deepseek钱了
2025年1月19日的时候我说deepseek的深度推理很不好用（诸如无限重复、可读性差和语言混合等），v3也不是完全吊打其它模型，让后网友说我是不是收了美国钱了，当然是1月20日后回复我的。
deepseek在1月20日发布的R1确实很惊艳，但对于大模型由于训练集，参数，算法的不同多少都会有一些差异，作为用户，往常只能通过搜索引擎找到答案，现在可能需要同时向多家AI和搜索引擎提问来得到想要的答案，有时能更快的解决问题，有时会带来更多无效尝试。
这篇文章我从过年开始写，2月下旬才抽空写完，这中间发生了很多事情，例如qwen2.5max（我用起来一般），gork-3（接口有点贵，没怎么试），google-gemini-2.0（中文支持很差），总的来说其实各家模型各有优势，并没有谁全方面吊打另一家的情况。

测试原则

本测试不考虑prompt合理性，因为使用一样的prompt所以一视同仁
不考虑o1和r1的推理特性带来的额外收益，主观场景无法评分，我们推理的目的还是为了结果（至少我注重结果）
无额外上下文（不懂的可以理解为，未开启互联网搜索，且不会再一条会话上持续）

对比参数

OpenAI，Claude：poe.com，自建机器人
DeepSeek：API，自建dify，（Chat模型统一选择deepseek-chat，根据官方文档2.5版本后两个选项背后的模型一样，如果不一样这里我测的是chat而不是code）

统一系统提示词（除了o3-mini系列和R1）

系统提示词参考智谱调试台默认提示词

你是一个乐于解答各种问题的助手，你的任务是为用户提供专业、准确、有见地的建议。

接口参数

POE平台只提供了一个温度参数可调，我不清楚背后对应的是什么参数

Chat模型
- GPT4o: POE平台默认，温度：0.35
- Claude-3.5-Sonnet: POE平台默认，温度：0.5
- DeepSeek-V3: top_p: 0.5 其它：默认值
深度推理
- GPTo1: POE平台默认，温度：0.35
- DeepSeek-R1: api默认值
- GPTo3-mini: POE默认参数，默认系统提示词（POE暂不支持自定义）
- GPTo3-mini-high: POE默认参数，默认系统提示词（POE暂不支持自定义）

开发场景

问题：Blender Python脚本简单处理

prompt:

blender版本: 3.6
python版本: 3.10
基于blender python api写一个脚本
把一个立方体变成一个渐变色的球体

评分标准
- 变成球体：+0.5
- 添加渐变材质：+1
- 脚本报错：-0.5

deepseek-v3	gpt4o202411	Claude3.5Sonnet20241022	o1	r1	o3-mini	o3-mini-high
0.5	0	1.5	-0.5	1.5	1	1.5

问题：用最短的代码帮我写一个html文件，打开即玩的贪吃蛇

用最短的代码帮我写一个html文件，打开即玩的贪吃蛇
使用较新版本的edge，你无需考虑旧游览器兼容性

最低0.47元/天解锁文章