🔥🔥🔥本篇笔记所对应的视频:6850亿参数混合专家(MoE)架构开源大模型!Deepseek V3全方位客观评测文档处理、逻辑推理、算法编程等多维度的真实能力水平!是卓越还是拉胯?_哔哩哔哩_bilibili
Deepseek发布了最新Deepseek v3大模型,现在在hugging face上可以下载模型的权重文件了。
而且我们还可以在Deepseek的官方直接使用v3模型。
由于官方还没有发布详细的参数介绍,我们目前只能搜索到关于这款模型有限的信息。
这款模型采用了混合专家(MoE)架构,总参数量为685B,包含256个专家模型。
而且这款模型的知识库截止日期为2024年7月。