基于组块的自然语言理解解决方案
问题背景:
自然语言理解的一般流程:词法分析->句法分析->语义分析。
查询式自然语言问句一般为祁使句和疑问句,语句结构有一定规律可寻。词法分析是基础,句法和语义分析是关键。通过对大量问句的考察,发现可以从其中分出具有固定构成结构的组块,因此在句法分析过程中,通过不断的组块,来实现对语句结构的理解,并通过组块,获得语句的语义信息。
解决方案:
一.切词并标注词性
1.分词
利用中科院计算所开发的ICTCLAS分词算法,实现分词标注,将原词和它的词性,存入一个链表WordLink中。WordLink中每一个单元为Word。
Word结构:
中文字串 |
词性 |
属性 |
所在表格 |
所在表格对应字段 |
是否指示代词 |
指示内容 |
是否有聚集功能 |
聚集语义 |
是否有其他语义 |
其它语义 |
词表结构与Word结构大致相同
ID |
中文字串 |
词性 |
属性 |
所在表格 |
所在表格对应字段 |
是否指示代词 |
是否有聚集功能 |