【技术白皮书】第二章：OCR智能文字识别回顾——自然语言文本发展历程

原创

已于 2022-07-04 15:22:14 修改 · 861 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2022-06-16 11:42:26 首次发布

信息抽取技术始于20世纪60年代，经过MUC等会议推动，发展成为自然语言处理的重要分支。MUC系列会议定义了评测标准，促进了技术进步。ACE和TAC/KBP会议进一步拓展了评测范围。当前，信息抽取技术广泛应用在商业、医疗、政务等领域，随着深度学习的发展，其精度和应用范围持续扩大。

2.发展历程与现状

2.1信息抽取技术发展历程

从自然语言文本中获取结构化信息的研究最早开始于20世纪60年代中期，这被看作是信息抽取技术的初始研究，它以两个长期的、研究性的自然语言处理项目为代表。

美国纽约大学开展的Linguistic String项目[3]开始于60年代中期并一直延续到80年代。该项目的主要研究内容是建立一个大规模的英语计算语法，与之相关的应用是从医疗领域的X光报告和医院出院记录中抽取信息格式（Information Formats），这种信息格式实际上就是现在我们所说的模板（Templates）。

另一个相关的长期项目是由耶鲁大学Roger Schank及其同事在20世纪70年代开展的有关故事理解的研究。由他的学生Gerald De Jong设计实现的FRUMP系统是根据故事脚本理论建立的一个信息抽取系统。该系统从新闻报道中抽取信息，内容涉及地震、工人罢工等很多领域或场景。该系统采用了期望驱动（top-down，脚本）与数据驱动（bottom-up，输入文本）相结合的处理方法。这种方法被后来的许多信息抽取系统采用。

从20世纪80年代末开始，信息抽取研究蓬勃开展起来，这主要得益于消息理解系列会议（MUC，Message Understanding Conference）的召开。正是MUC系列会议使信息抽取发展成为自然语言处理领域一个重要分支，并一直推动这一领域的研究向前发展。

从1987年开始到1998年，MUC会议共举行了七届，它由美国国防高级研究计划委员会（DARPA，the Defense Advanced Research Projects Agency）资助。MUC的显著特点并不是会议本身，而在于对信息抽取系统的评测[5]。只有参加信息抽取系统评测的单位才被允许参加MUC会议。在每次MUC会议前，组织者首先向各参加者提供样例消息文本和有关抽取任务的说明，然后各参加者开发能够处理这种消息文本的信息抽取系统。在正式会议前，各参加者运行各自的系统处理给定的测试消息文本集合。由各个系统的输出结果与手工标注的标准结果相对照得到最终的评测结果。最后才是所谓的会议，由参与者交流思想和感受。后来，这种评测驱动的会议模式得到广泛推广，如1992年开始举行的文本检索会议TREC2等。

从历次MUC会议，可以清楚地看到信息抽取技术发展的历程。