DeepSeek-V3-0324 发布,本次 V3 版本有哪些改进?

DeepSeek-V3-0324 版本改进之处

模型参数与部署优化

  • 参数略有放大:新发布的 V3 - 0324 模型参数从之前的 671B 提升到 685B,虽然增幅不大,但也反映了模型在规模上的进一步发展。
  • MaC 部署优化与开源:V3 - 0324 具有 700GB 和 MIT 许可证的特点,意味着 MaC 部署得到优化,并且更加开源。MIT 许可证允许任何人出于任何目的使用、修改和分发模型,甚至用于商业目的。

 

知识截止日期更新

在 DeepSeek 官网提问可知,V3 - 0324 的知识截止日期更新为 2024 年 7 月,而之前的 DeepSeek - V3 是 2023 年 12 月,说明训练数据得到了更新。

Function call 优化

V3 的文档重要变动显示其优化了 Function call,此前版本提示 Function call 会有调用问题,但目前已经支持调用函数。

性能对比优势

与 Claude 系列对比

在数学推理和前端开发方面,网友实测显示 DeepSeek - V3 - 0324 表现优于 Claude3.5 和 Claude3.7 Sonnet。它可轻松免费地创建漂亮的 HTML5、CSS 和前端,而 Claude 不仅有被封号的风险,且每月需 20 美元的使用费用,相比之下 DeepSeek - V3 - 0324 性价比极高12

与 OpenAI 对比

与 OpenAIo1 - pro 相比,DeepSeek - V3 - 0324 在性能上约可实现 70%,但价格便宜 50 倍,在成本效益方面具有显著优势。

基准测试对比

在 aider 的多语言基准测试中,DeepSeek - V3 - 0324 得分为 55%,比上一版本有显著提升,并且与 DeepSeek - R1 和 OpenAIo3 - mini 等思考模型相比具有竞争力,在官方 API 价格上,它仍旧是最便宜的。

开源特性优势

此前版本是自定义许可证,而 V3 - 0324 彻底支持 MIT 协议。这意味着该模型更加开源,任何人都可以出于任何目的使用、修改和分发它,甚至用于商业目的,还支持模型蒸馏、商业化应用。大家很少将这种尺寸的模型直接全部开源,所以其开源特性具有重要意义,国外有网友提到 DeepSeek 正在实现 Meta 承诺做到的事。

消费级设备运行优势

模型文件总计 641GB,主要以 model - 00035 - of - 000163.safetensors 形式存在,参数量 685B 虽大,但也能在消费级设备上跑起来,例如苹果机器学习工程师 Awni Hannun 就基于 MLX 框架和 4 - bit 量在相关设备上进行操作,这扩大了模型的使用范围和场景。

能力提升

  • 前端编程能力显著增强:有用户测试让其生成一个电商网站,不到 3 分钟就写完了 750 行代码,还设置了动态产品卡片悬停效果,以及支持手机端的动态响应式布局,甚至能直接采购。网友实测新模型直接干翻了 DeepSeek R1,与 Claude3.7 相匹敌。在 Aider 的多语言基准测试中,DeepSeek - V3 - 0324 拿下 55%成绩,较前代版本显著提升,成为仅次于 Sonnet3.7 的非推理类模型第二名,其表现可媲美 R1 和 o3 - mini 等具备推理能力的模型。
  • 解锁更多玩法:能解锁 Claude3.7 Sonnet 很多玩法,代码可以与之正面较量。从一个球在超立方体弹跳的 Python 脚本,即可看出 V3 代码性能相较上一版的改善。
  • 解决特定问题能力增强:在 MisguidedAttention 基准上,跃居非推理类模型榜首,甚至超越了 Claude Sonnet3.7(非推理模型),还能解决一些此前只有推理模型才能处理的提示,比如「4 升水壶问题」,似乎学会了识别推理循环并跳出循环,这种能力是许多专业推理模型都不具备的。

 

数学能力

有测试找了一个年初大模型都还在做错的小学生数学题,V3 - 0324 能直接回答正确,而 ChatGPT 在 1 月份还在出错,说明其数学能力有明显提升。
 

首先,可以推知,V3新版使用了R1的数据,V3的输出平均长度来到了5030字符,远高于其他基础模型,甚至部分题目输出达到了12000~13000这种推理模型才有的规模。看内容也确实是复刻先前R1的推导过程,有些题目还保留了R1推理到一半切成英文的“习惯”。

其次,V3虽然很强,但小问题也很多。V3的指令遵循能力与R1接近,都存在较多缺陷。比如#10水果热量问题,V3尽然强行修改题目要求。#22连续计算,上来第一步就忽略题目要求。

对于复杂难题部分,如#4拧魔方,#23解密,#24找数字符规律,V3的智力不够,找不到解法,但这不怪V3,他的先辈R1也是错的。

也有部分字符类问题,R1是稳定正确,如#9数字缩写,#11岛屿计数。R1是接近满分,V3幻觉严重,基本不得分。

在宣称的数学,程序改进方面,确实比V3初版进步显著,但最大问题还是不稳定,编程题可能在全对和全错之间随机。这一点在其中位分比最高分低17%中也能反应出来。


如果是”死对头GPT4.5“对比,二者虽然分数接近。但细节差异很多。

4.5保留了许多来自o1/o3的推理特点,擅长字符类,前面V3丢分的字符类问题,4.5这边得分都较高。而V3可以在数学问题上拿到更多分。

此外,4.5的输出稳定性也稍好。

 

上下文理解能力

具备更精准的上下文理解能力,从用户测试生成内容时对提示词“a horse riding on top of an astronaut, by grok 3”呈现出不同的理解可以体现。

参考网址:

仅供参考!!!

<think>我们正在讨论在8卡H20上部署vLLM的DeepSeek-V3-0324模型。根据引用[1],我们知道已经有人在这台机器上部署了DeepSeek-R1-AWQ和DeepSeek-V3-0324,因此我们可以参考他们的经验。引用[2]则强调了硬件特性(如FP8低精度计算)对模型设计的影响,这提示我们在部署时可能需要考虑量化或特定的计算格式。步骤:1.环境准备:确保有合适的驱动和CUDA版本。H20是NVIDIA的显卡,需要安装最新的驱动和CUDAToolkit(建议12.1以上)。2.安装vLLM:vLLM是一个高效推理框架,支持连续批处理和PagedAttention。安装命令:`pipinstallvLLM`(注意:可能需要从源码安装以支持最新特性)。3.获取模型:从HuggingFace下载DeepSeek-V3-0324模型。注意,该模型可能需要特定的tokenizer和配置文件。4.配置vLLM:由于H20是新一代显卡,支持FP8计算,我们可以在vLLM中启用FP8以加速推理(如果模型支持)。具体方法是在启动vLLM时添加参数`--dtypefloat8`(注意:需要vLLM版本>=0.4.0并检查是否支持)。5.分布式启动:使用`torchrun`或vLLM自带的分布式启动命令,指定8个GPU。详细步骤:-步骤1:安装驱动和CUDA确保NVIDIA驱动版本>=535,CUDA版本>=12.1。安装命令参考:```bashwgethttps://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.runsudoshcuda_12.1.0_530.30.02_linux.run```-步骤2:安装vLLM建议从源码安装最新版本(支持DeepSeek-V3):```bashgitclonehttps://github.com/vllm-project/vllm.gitcdvllmpipinstall-e.#或者使用pipinstall-e.--extra-index-urlhttps://pypi.nvidia.com(如果使用FP8需要A100/H100/H20的特定包)```注意:H20与H100的架构相似,因此可能支持相同的FP8特性。但需要确认vLLM是否支持H20。-步骤3:下载模型使用huggingface-hub下载模型(需要权限,可能需要登录):```bashhuggingface-clidownloaddeepseek-ai/deepseek-v3-0324-instruct--local-dirdeepseek-v3-0324```-步骤4:启动vLLM的API服务器使用以下命令启动(注意:使用tensor并行,8卡):```bashpython-mvllm.entrypoints.openai.api_server\--modeldeepseek-v3-0324\--tokenizerdeepseek-ai/deepseek-v3-0324-instruct\--tensor-parallel-size8\--dtypefloat8#如果支持FP8,否则使用float16```如果遇到FP8不支持的问题,可以尝试去掉`--dtypefloat8`,使用默认的float16。-步骤5:测试使用curl测试:```bashcurlhttp://localhost:8000/v1/completions\-H"Content-Type:application/json"\-d&#39;{"model":"deepseek-v3-0324","prompt":"SanFranciscoisa","max_tokens":7,"temperature":0}&#39;```注意事项:1.由于H20的显存相对较小(每卡约96GB?实际上H20的显存是96GB,但带宽和计算能力与H100有差异),需要确保模型可以放入8卡。DeepSeek-V3-0324大约有685B参数,按16bit需要1.37TB显存,因此必须使用张量并行和量化。FP8可以将显存占用减半,所以使用FP8后大约需要685GB,8卡每卡约85.6GB,因此96GB的H20可以满足(但实际部署中,vLLM的PagedAttention可以进一步节省显存,所以可行)。2.如果遇到显存不足,可以尝试激活vLLM的量化功能(如AWQ,但需要模型有对应的量化版本)。目前DeepSeek-V3尚未提供量化版本,因此只能使用FP8或FP16。3.性能:根据引用[1],在8卡H20上运行DeepSeek-V3-0324是可行的,但具体性能指标未给出。我们可以监控GPU使用情况。如果部署过程中遇到问题,可以尝试:-降低`--tensor-parallel-size`(但8卡是推荐的,因为模型太大)-使用`--swap-space`参数将部分显存溢出到CPU内存(但会降低速度)-使用vLLM的量化支持(如果后续提供量化模型)相关问题:1.如何监控vLLM在8卡H20上的运行性能?2.在H20上运行DeepSeek-V3-0324模型,相比H100有哪些性能差异?3.如何对DeepSeek-V3-0324模型进行量化以进一步减少显存占用?</think>### 在8卡NVIDIA H20上部署vLLM运行DeepSeek-V3-0324的完整指南 #### 环境准备(系统级配置) 1. **驱动与CUDA** 确保安装NVIDIA驱动≥535版本和CUDA 12.1+: ```bash # 检查驱动兼容性 nvidia-smi --query-gpu=driver_version,name --format=csv # 安装CUDA 12.1 wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run sudo sh cuda_12.1.0_530.30.02_linux.run ``` 2. **FP8计算支持** H20显卡支持FP8低精度计算(引用[2]),需在vLLM中启用: ```bash export NVIDIA_FP8_POINTER_MODE=enable ``` #### 部署步骤 1. **安装vLLM** 使用官方源码安装(支持H20新特性): ```bash git clone https://github.com/vllm-project/vllm.git cd vllm pip install -e . # 推荐Python 3.10+ ``` 2. **模型下载** 获取DeepSeek-V3-0324模型(需HuggingFace授权): ```bash huggingface-cli download deepseek-ai/deepseek-v3-0324-instruct --local-dir ./deepseek-v3 ``` 3. **启动分布式推理** 使用8卡并行(`--tensor-parallel-size 8`): ```bash python -m vllm.entrypoints.openai.api_server \ --model ./deepseek-v3 \ --tensor-parallel-size 8 \ --dtype float8 \ # 启用FP8优化 --gpu-memory-utilization 0.95 # H20每卡96GB显存 ``` 4. **性能优化参数** 在`config.json`中添加H20特定配置: ```json { "quantization": {"fp8_storage": true}, "max_model_len": 8192 # 支持长上下文 } ``` #### 验证部署 发送测试请求: ```bash curl http://localhost:8000/v1/completions \ -H "Content-Type: application/json" \ -d &#39;{ "model": "deepseek-v3", "prompt": "解释FP8量化对LLM推理的影响", "max_tokens": 256 }&#39; ``` #### 关键注意事项 1. **显存管理** DeepSeek-V3-0324(685B参数)在FP8模式下约需685GB显存,8卡H20(总768GB)可满足需求(引用[1])。 2. **网络拓扑** 使用NCCL_P2P_DISABLE=1避免NVLink限制(H20无NVLink)。 3. **监控工具** 推荐使用Prometheus监控: ```yaml # vLLM暴露的监控指标 - job_name: &#39;vllm&#39; static_configs: - targets: [&#39;localhost:8000/metrics&#39;] ``` > **故障排查**:若遇到OOM错误,尝试添加`--swap-space 64`(启用CPU卸载)或降低`--max-num-seqs`值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

秋の本名

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值