本文内容为网友博客总结和项目应用心得体会
语言学中的一些概念
词法:词汇构成、变化和使用规则。
句法:句子的各个组成部分的排列以及相互关系,研究句子类型和句子成分。
语法:词法和句法合称为语法。
词性(词类):词的类型。具有相同句法功能、能在同样的组合位置中出现的词,聚合成一个词类(词性)。
词义:词的内容,反映人们对客观事物特点的认识,包括词的“词汇意义”、词的 “语法意义”、词的“色彩意义” (包括感情色彩和语体色彩)。
语义:语言(词汇、句子等)与其所指对象(概念、事物、人)之间的关系,理解整个句子或其中某些成分的含义。
依存句法分析
概念
依存句法通过词汇之间的依存关系表达整个句子结构,这些依存关系表达了句子各成分之间的语义依赖关系。所有词汇之间的依存关系构成一颗句法树,树的根节点为句子核心谓词,用来表达整个句子的核心内容。
通过依存句法树中的依赖关系,可以获得具有特定语法关系的两个词汇。具有依存关系的两个词汇不一定相邻,两词之间往往存在其他词汇。
图中每个箭头代表一个依赖关系,箭头的起点为被依赖项(被依赖的对象),又称支配项,箭头指向的是依赖项,又称受支配项(被支配的对象)。
公理
- 一个句子中只有一个成分是独立的
- 其它成分直接依存于某一成分
- 任何一个成分都不能依存与两个或两个以上的成分
- 如果A成分直接依存于B成分,而C成分在句中位于A和B之间,那么C或者直接依存于B,或者直接依存于A和B之间的某一成分
- 中心成分左右两面的其它成分相互不发生关系
也就是说依存句法中,每个句子只有一个核心谓词,句中每一个词都有一个与之相关的词。
算法
具体介绍参考 https://blog.youkuaiyun.com/sinat_26917383/article/details/55682996
自然语言处理任务是解决 “词性、句法、词义、语义”等分析问题。许多语义分析是建立在句法分析基础之上的,在遇到复杂的长句子时,存在歧义问题(句法歧义),导致句法分析结果的不准确。
工具
采用哈工大ltp http://www.ltp-cloud.com/intro#dp_how 进行句法分析,采用基于图的依存分析方法。依存句法分析标注关系 (共15种) 及含义如下:
应用
情感分析
-
情感词典构建:获得不同情感类别的特征词汇。情感词分为两类,一类为表强度的词汇(Ⅰ类),包括否定词和程度副词,另一类为表情感的词汇(Ⅱ类),包括正面和负面倾向的词汇。
-
主观句提取:提取包含情感词的句子,作为文章的主观句。
-
语义依赖分析:以依存句法分析为基础,判断情感词在句子中的语法成分。
-
句子极性计算:根据情感词汇及其语法成分、情感词与否定词之间的句法关系,构建规则,计算句子极性。
-
情感聚合:考虑篇章结构,对主观句的情感值进行加权求和,判断篇章情感倾向。主观句距离篇章首尾越近,权值越大。
常用的情感词典有知网情感词典和 大连理工大学情感词汇本体库http://ir.dlut.edu.cn/EmotionOntologyDownload 。
其中句子极性计算依赖的规则构建基于论文 Sentiment Analysis of Chinese Documents: From Sentence to Document Level ,包括以下几类:
在以上论文规则基础之上,进行如下改进:
假设“子节点对根节点的影响随着距离的增大而减弱”,引入距离衰减因子λ。
λ = 1 / abs ( index(root) - index(child) )
index表示词在句子中的索引值。
- 对于ATT关系,如果子节点为Ⅱ类情感词汇,则计算根节点情感时乘λ。
- 对于ADV关系,如果子节点为Ⅰ类情感词汇,则计算根节点情感时乘λ。
事件抽取
判断句子描述的事件,通过核心谓词和语法结构,进行判断。
常用的语法关系包括:
- 核心谓词的并列关系(COO)词
- 核心谓词的动宾关系(VOB)词
- 在处理长句子时,还需用到核心谓词的多级并列关系词(并列的并列……)。
一个用于事件抽取的开源代码:使用句法依存分析抽取事实三元组 https://github.com/twjiang/fact_triple_extraction
参考
- 句法 https://baike.baidu.com/item/%E5%8F%A5%E6%B3%95
- 语言学 https://baike.baidu.com/item/%E8%AF%AD%E8%A8%80%E5%AD%A6/3632?fr=aladdin
- NLP+句法结构(三)︱中文句法结构(CIPS2016、依存句法、文法) https://blog.youkuaiyun.com/sinat_26917383/article/details/55682996
- 哈工大ltp https://www.ltp-cloud.com
- 大连理工大学情感词汇本体库http://ir.dlut.edu.cn/EmotionOntologyDownload
- Zhang C , Zeng D , Li J , et al. Sentiment analysis of Chinese documents: From sentence to document level[J]. Journal of the American Society for Information Science and Technology, 2009, 60(12):2474-2487. DOI: 10.1002/asi.21206 https://onlinelibrary.wiley.com/doi/full/10.1002/asi.21206
- 使用句法依存分析抽取事实三元组 https://github.com/twjiang/fact_triple_extraction
- CHRISTOPHERD, MANNING, HINRICHSCHUTZE. 统计自然语言处理基础[M]. 电子工业出版社, 2005.