DeepSeek LLM Scaling Open-Source Language Models with Longtermism
DeepSeek LLM 使用长期主义扩展开源语言模型
目录
DeepSeek LLM Scaling Open-Source Language Models with LongtermismDeepSeek LLM 使用长期主义扩展开源语言模型
3.1Scaling Laws for Hyperparameters3.1 超参数的缩放定律
3.2Estimating Optimal Model and Data Scaling3.2 估算最佳模型和数据缩放
3.3Scaling Laws with Different Data3.3 不同数据的缩放定律
5.1Public Benchmark Evaluation5.1 公共基准评估
5.2.1Chinese Open-Ended Evaluation