TECHGPT-2.0: A LARGE LANGUAGE MODEL PROJECT TO SOLVE THE TASK OF KNOWLEDGE GRAPH CONSTRUCTION-优快云博客

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/136171126

TechGPT-2.0项目旨在增强大型语言模型在知识图谱构建任务中的能力，包括NER和RTE。报告介绍了两个7B模型和一个QLoRA权重，用于处理长文本。模型在华为Ascend服务器上训练，并在多个领域进行增强，代码已开源。

本文是LLM系列文章，针对《TECHGPT-2.0: A LARGE LANGUAGE MODEL PROJECT TO SOLVE
THE TASK OF KNOWLEDGE GRAPH CONSTRUCTION》的翻译。

摘要

大型语言模型在不同的自然语言处理任务中表现出了强大的性能。本报告介绍了TechGPT-2.0，该项目旨在增强大型语言模型的能力，特别是在知识图谱构建任务中，包括NLP应用程序中的命名实体识别（NER）和关系三重提取（RTE）任务。此外，它还是一个LLM，可供中国开源模型社区的研究使用。我们提供两个7B大型语言模型权重和一个专门用于处理长文本的QLoRA权重。值得注意的是，TechGPT-2.0是在华为的Ascend服务器上训练的。它继承了TechGPT-1.0的所有功能，表现出强大的文本处理能力，尤其是在医学和法律领域。此外，我们为该模型引入了新的功能，使其能够处理各种领域的文本，如地理区域、交通、组织、文学作品、生物学、自然科学、天文物体和建筑。这些增强还增强了模型在处理幻觉、无法回答的查询和冗长文本方面的熟练性。本报告全面而详细地介绍了华为Ascend服务器的完整微调过程，包括Ascend server调试、指令微调数据处理和模型培训的经验。我们的代码在https://github.com/neukg/TechGPT-2.0可用。