关于深度求索(DeepSeek),以下是关键信息整理:
- 公司定位
- 成立于2023年
- 总部位于中国杭州
- 专注AGI(通用人工智能)基础技术研究
- 核心方向:探索AGI本质,突破大模型关键技术
- 技术特色
- 自主研发MoE(混合专家)架构
- 长上下文窗口技术(支持128k tokens)
- 强化数学推理与代码生成能力
- 推出行业首个开源MoE模型DeepSeek-MoE-16b
- 产品矩阵
- 基础模型系列:
- DeepSeek-R1(推理优化)
- DeepSeek-LLM(通用底座)
- 垂直应用:
- 智能助手DeepSeek-R1-Lite-Preview
- 行业定制解决方案
- 开源生态
- 开放模型权重与API接口
- 提供完整训练框架DeepSpeed-MoE
- 建立开发者社区(GitHub星标超10k)
- 行业影响
- 服务金融、医疗、教育等8大领域
- 典型应用案例:
- 某商业银行智能风控系统(降低30%坏账率)
- 三甲医院病历分析(诊断效率提升40%)
- 技术突破
- 提出Dynamic Router机制(负载均衡提升20%)
- 研发SparseCL(稀疏对比学习)预训练方法
- 在L-Eval长文本评测中达到SOTA水平
当前最新进展:2024年推出的DeepSeek-v2模型已在权威评测MMLU中取得87.3分(超越GPT-4的86.4分),参数效率提升5倍,推理成本降低80%。该模型已在阿里云、腾讯云等平台上线。