NLP复习资料(6)-第十章 语义分析

涵盖语义理论、格语法、语义网络等NLP核心概念,解析词义消歧、语义角色标注及词向量表示,深入篇章分析,助您掌握自然语言处理关键技能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


国科大,宗老师《自然语言处理》课程复习笔记,个人整理,仅供参考。

语义分析:P3解释句子或篇章的含义,主要困难(歧义现象,不同人的理解不同,模型方法不成熟)

1语义理论简介

就是说不同的学者对于词的含义有不同的理解(至少记住两个吧)
1.词的指称(词与现实世界事物对应,复杂问题无法定义)
2.心理图像(不是所有词义都有清晰的心理图像)
3说话者意图(希望听者理解,做出反应)
4.过程语义(编程语言的含义,缺乏独立性)
5.词汇分解学派(词的意义基于语义基元,语义基元标准难定)
6.条件真理模型(不能很好描述时间场景)
7.情景语义学、模态逻辑

2格语法

格语法-语言学家搞的一套东西,老师快速地过了一遍。句子的表层表现与底层含义。

三条基本规则:P22句子由情态和命题构成,命题可以向下分

用格语法分析语义:基础有一本动词格框架名词语义信息的词典

步骤P31,识别动词,找格框架->填充必备格->填充可选格->判断句子情态

格语法描述汉语的局限性:一个句子(动词)一个框架,汉语的无动句、流水句子、连动句很难用一个框架描述

4语义网络

语义网络:P38 概念关系 组成的有向图,用来表示语义与知识。

P42事件的语义网络节点之间的关系可以使用格关系来表示

P45基于语义网络的推理:根据已知知识构建局部网络->用变量代表待求客体进行推理

P46知识图谱:描述实体与实之间的关系。关键技术:实体识别与消歧,关系识别

5词义消歧

词义消歧:多义词词义确定的过程

基本方法:
1.有监督词义消歧:互信息消歧P51:平行语料库,语义指示器的分类问题,互信息最大的方法来确定语义指示器的分类

2.贝叶斯消歧:第二章内容P55基于上下文的贝叶斯分类器的消歧方法

3.基于最大熵的消歧方法:第二章

4.基于词典的消歧:
->词典语义定义消歧
->上下文语义项
->双语词典:短语-翻译-译文中的共现次数多的组合词义作为原语言中的意义
->Yarowsky:P62一个多义词项出现一次后,该词项出现的可能性会比较大

5语义角色标注

分析句子谓语与其他成分词之间的关系

方法:
->基于短语结构分析的SRL(候选论元剪枝:P74,论元识别与标注P76)
->基于依存关系SRL(P80只有候选论元的剪除:因为它本来就是以动词为中心的)
->基于语块分析的SRL方法P84:语义角色标注问题变成序列标注问题

6词向量表示

两个主要问题:词汇如何转换成向量,向量如何语义组合。

基于文本的词汇语义表示:共现矩阵P94、神经网络P95

基于图像学习的词汇语义表示:P97图像->特征向量

基于声音学习的词汇语义特征:P98

多模态融合

下面就是老师们的一些工作,都是一些思想,不细说大致了解一下。
(1) 关联词汇作为弱监督信号得到词向量表示
(2) 多模态的词汇表示的可解释性研究:不同模态的向量,侧重词义特征不同,或具体,或抽象
(3) 融合词汇内部结构的中文句子表示模型
(4) 借鉴人类注意力分配机制的语义表示模型
(5) 研究不同类型句子在人脑的语义解码(句子->脑图像->特征提取)

7篇章分析

宗老师讲的最后一点内容:篇章分析
1.如何表示一个篇章:
词汇链:P3几个关键词串在一起,构成一篇文章的描述
事件链:P5实体抽取->词汇链上每个词最近的论元,构成事件链->判断相邻事件之间的关系
话题链:P6一系列回指构成的话题链

2.浅层篇章关系分析:P10分析两个篇章单元之间的关系,三个主要任务:关联词识别、arg抽取、两个arg之间功能类型判断。老师的基本框架:p12
(1)锚点识别:P13包括显示的关联词,和隐式的标点符号
(2) Argment提取:P16一些启发式的规则
(2)Argment 扩展,以同一个句子、前后两个句子为种子,向前后扩展
(3)Argment再标记:他们的位置是相对的p28

3.主要问题:关联词识别错误P31、句子边界识别错误P33、

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值