2021SC@SDUSC
如标题所见,这是一篇关于我们“软件工程应用与实践”课题小组的项目综述。在这篇博客中,我将介绍我们课题小组选择的课题及其相关背景,提出我对于这个课题的初步认知,并对我们小组对项目源代码的分析工作的分工安排进行讲述。
一、课题项目介绍
课题名称:中文信息抽取
课题描述:输入一段自然语言(中文)文本,抽取出文中的实体及其关联关系。
应用价值:探索针对专业文本的中文信息抽取工具。
方法工具:DeepDive
数据集:中文专业数据集
二、课题背景
目前的人工智能领域中,NLP(Natural Language Process, 自然语言处理)问题一直是极为重要的一个组成部分。人之所以有别于其他动物,很大一部分原因就在于人类有一套完整的语言系统,借助这套语言系统,人们能够与同类进行高效的沟通,从而理解彼此的意图。通过研究NLP问题,我们能够反过头来剖析人类语言体系的内核,开发出一套方法,让机器也能够理解人类的语言,从而掌握人类的一部分“智能”。这,将会是走向强人工智能的一条必经之路。
而我之所以选取这一个课题,原因有二。其一,文本信息抽取属于NLP问题的一个分支。NLP问题是如此庞大,对于一个本科生而言,在基础知识掌握尚不完全的情况下,想要贸贸然地对一个庞大的体系进行学习无疑是难如登天。因此,从文本信息抽取这一个分支出发,甚至是在这个分支中再细化到中文这个领域进行研究,无疑会更适合当前的知识储备情况。其二,中文信息抽取同样是与我们的生活息息相关的知识,我们往往总是在不经意间用到这一项仿佛本能一般的技能。如果我们能够成功对这一项技能加以解析,并传达给计算机让其同样掌握这项技能,那么在未来的生活中,这样的智能机器将很有可能为我们的生活与学习提供巨大的帮助。
三、课题项目的初步认知
信息抽取(information extraction),简称IE,即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。 这些信息通常包括实体(entity)、关系(relation)、事件(event)