实战对比:DeepSeek vs ChatGPT,谁更胜一筹?

前言

去年我用deepseek2.5的时候就说在一些场景(Blender python api编程),deepseek2.5秒杀所有大模型,所以我当时在一些“论坛”吹捧deepseek,当时网友说我是不是收了deepseek钱了
2025年1月19日的时候我说deepseek的深度推理很不好用(诸如无限重复、可读性差和语言混合等),v3也不是完全吊打其它模型,让后网友说我是不是收了美国钱了,当然是1月20日后回复我的。
deepseek在1月20日发布的R1确实很惊艳,但对于大模型由于训练集,参数,算法的不同多少都会有一些差异,作为用户,往常只能通过搜索引擎找到答案,现在可能需要同时向多家AI和搜索引擎提问来得到想要的答案,有时能更快的解决问题,有时会带来更多无效尝试
这篇文章我从过年开始写,2月下旬才抽空写完,这中间发生了很多事情,例如qwen2.5max(我用起来一般),gork-3(接口有点贵,没怎么试),google-gemini-2.0(中文支持很差),总的来说其实各家模型各有优势,并没有谁全方面吊打另一家的情况。

测试原则

  • 本测试不考虑prompt合理性,因为使用一样的prompt所以一视同仁
  • 不考虑o1和r1的推理特性带来的额外收益,主观场景无法评分,我们推理的目的还是为了结果(至少我注重结果)
  • 无额外上下文(不懂的可以理解为,未开启互联网搜索,且不会再一条会话上持续)

对比参数

OpenAI,Claude:poe.com,自建机器人
DeepSeek:API,自建dify,(Chat模型统一选择deepseek-chat,根据官方文档2.5版本后两个选项背后的模型一样,如果不一样这里我测的是chat而不是code)

统一系统提示词(除了o3-mini系列和R1)

系统提示词参考智谱调试台默认提示词

你是一个乐于解答各种问题的助手,你的任务是为用户提供专业、准确、有见地的建议。

接口参数

POE平台只提供了一个温度参数可调,我不清楚背后对应的是什么参数

  • Chat模型
    • GPT4o: POE平台默认,温度:0.35
    • Claude-3.5-Sonnet: POE平台默认,温度:0.5
    • DeepSeek-V3: top_p: 0.5 其它:默认值
  • 深度推理
    • GPTo1: POE平台默认,温度:0.35
    • DeepSeek-R1: api默认值
    • GPTo3-mini: POE默认参数,默认系统提示词(POE暂不支持自定义)
    • GPTo3-mini-high: POE默认参数,默认系统提示词(POE暂不支持自定义)

开发场景

问题:Blender Python脚本 简单处理

prompt:

blender版本: 3.6
python版本: 3.10
基于blender python api写一个脚本
把一个立方体变成一个渐变色的球体
  • 评分标准
    • 变成球体:+0.5
    • 添加渐变材质:+1
    • 脚本报错:-0.5
deepseek-v3 gpt4o202411 Claude3.5Sonnet20241022 o1 r1 o3-mini o3-mini-high
0.5 0 1.5 -0.5 1.5 1 1.5

问题:用最短的代码帮我写一个html文件,打开即玩的贪吃蛇

用最短的代码帮我写一个html文件,打开即玩的贪吃蛇
使用较新版本的edge,你无需考虑旧游览器兼容性
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值