传统自然语言处理任务中的大语言模型
语言模型是自然语言处理领域的重要研究方向之一,相关技术进展有力地推动了下游应用任务的性能提升。本部分内容将主要介绍大语言模型在三大类经典自然语言处理任务上的应用,包括序列标注、关系抽取以及文本生成任务,这些任务构成了许多现有自然语言处理系统和应用的基础,下图展示了具体样例。
序列标注任务,如命名实体识别(NER)和词性标注(POS),是一种基础的自然语言处理任务。通常来说,这类任务要求为输入文本序列中的每一个词项分配适当的语义类别标签,例如NER任务中经典的B-I-O标记方案(Beginning,Inside和Outside)。在深度学习时代,一种主流的技术方法是通过神经网络模型(如CNN、LSTM 或BERT等)对于序列单元进行编码,然后再将编码后的序列作为特征输入到经典的条件随机场模型(CRF)中,进而CRF能够基于编码后的序列特征进行序列标签的结构化预测。不同于传统方法,大语言模型可以通过上下文学习或基于特殊提示的方式解决序列标注任务,而无须使用B-I-O标记。例如,仅需要给予大模型相关的提示(如“请识别出句子中包含的实体”)或任务示例(如“输入文本‘中华人民共和国今天成立了’,请抽取出其所包含的命名实体&#