本文是LLM系列文章,针对《TECHGPT-2.0: A LARGE LANGUAGE MODEL PROJECT TO SOLVE
THE TASK OF KNOWLEDGE GRAPH CONSTRUCTION》的翻译。
摘要
大型语言模型在不同的自然语言处理任务中表现出了强大的性能。本报告介绍了TechGPT-2.0,该项目旨在增强大型语言模型的能力,特别是在知识图谱构建任务中,包括NLP应用程序中的命名实体识别(NER)和关系三重提取(RTE)任务。此外,它还是一个LLM,可供中国开源模型社区的研究使用。我们提供两个7B大型语言模型权重和一个专门用于处理长文本的QLoRA权重。值得注意的是,TechGPT-2.0是在华为的Ascend服务器上训练的。它继承了TechGPT-1.0的所有功能,表现出强大的文本处理能力,尤其是在医学和法律领域。此外,我们为该模型引入了新的功能,使其能够处理各种领域的文本,如地理区域、交通、组织、文学作品、生物学、自然科学、天文物体和建筑。这些增强还增强了模型在处理幻觉、无法回答的查询和冗长文本方面的熟练性。本报告全面而详细地介绍了华为Ascend服务器的完整微调过程,包括Ascend server调试、指令微调数据处理和模型培训的经验。我们的代码在https://github.com/neuk