命名实体识别是信息提取、问答系统、
句法分析、机器翻译、面向Semantic Web的
元数据标注等应用领域的重要基础工具,在
自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(
实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)
命名实体。
实体识别通常包括两部分:(1)实体边界识别;(2) 确定实体类别(人名、地名、机构名或其他)。英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。
近年来,随着对文本病历的研究,需要对医学实体进行识别,实体包括症状,检查,手术,药物等。这里介绍用CRF进行
实体识别通常包括两部分:(1)实体边界识别;(2) 确定实体类别(人名、地名、机构名或其他)。英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。
近年来,随着对文本病历的研究,需要对医学实体进行识别,实体包括症状,检查,手术,药物等。这里介绍用CRF进行