该文章介绍了一款针对泰语和英语的开源大型语言模型OpenJAI-v1.0,详细阐述其开发背景、数据与实验设置、评估结果,并指出未来工作方向,创新点集中在数据构建、能力强化及性能平衡上。
一、文章主要内容总结
- 模型基础与开发目标
- 以Qwen3-14B为基础模型,开发支持泰语和英语的开源大型语言模型OpenJAI-v1.0。
- 核心目标是提升模型在实际任务中的性能,重点强化指令遵循、长上下文理解和工具使用三大核心能力,同时避免灾难性遗忘。
- 数据与实验设置
- 数据集构建:围绕三大核心能力构建高质量数据集,均采用指令-响应格式,且所有样本经过严格筛选或翻译以适配双语需求。
- 指令遵循数据集:整合公开高质量数据与合成数据,经LLM评估筛选,训练时排除IFBench基准约束以保证零样本泛化评估准确性。
- 长上下文理解数据集:结合开源数据与合成数据,支持处理长达120,000 tokens的输入,适配RAG任务。
- 工具调用数据集:整合多场景数据并翻译为泰语,包含单轮/多轮交互及工具调用判断案例。
- 实验环境:在8xH100 GPU集群上训练,训练数据量约4.62亿tokens,全局批次大小256,训练耗时不到1天。
- 数据集构建:围绕三大核心能力构建高质量数据集,均采用指令-响应格式,且所有样本经过严格筛选或翻译以适配双语需求。
- 评估与结果
订阅专栏 解锁全文
848

被折叠的 条评论
为什么被折叠?



