NLP深度学习 —— CS224学习笔记12

本文介绍了SU-RNN、MV-RNN及RNTN等递归神经网络模型的发展,探讨了如何通过不同方法改进模型表达力,以更好地处理自然语言中的语法和语义关系。

1.2 语法松绑SU-RNN

不同类别输入的最优W不同。

对学习W的工作量加大,但性能提升。


现在模型受输入的语法类别条件约束。

我们决定类别的方法是通过一个简单的Probabilistic Context Free Grammar PCFG,通过计算Penn Tree Bank的统计摘要习得。例如The永远是DT.

我们初始化相同的W,默认是平均两个输入的向量。慢慢的模型学习到哪个向量更重要,以及旋转或缩放向量是否能提高性能。

例如DT-NP规则,会更重视名词而不是修饰它的定冠词。

SU-RNN超过此前的模型,但表达性仍然不够。

例如副词被定义为用于强调。如果我们只进行线性插值无法用一个向量来强调另一个向量,无法对其进行缩放。

1.3 MV-RNN 矩阵-向量递归神经网络

词表征不仅包括一个向量,也包括一个矩阵。

这样我们不仅能得到词的意义,也能学习它修饰另一个词的方法。


通过缩放相邻词的向量来得到修饰关系。

通过观察模型误差,一些关系仍然无法表达。

一是表示相反意思的词无法给予足够的重视,例如将most改为least应该完全改变句子的意思。

二是无法识别负负得正关系,例如加上not应该缓解原先的负面情绪。

三是转则关系,例如负面但是正面应该被视为正面意思表达。

1.4 RNTN 递归神经张量网络

我们还是将两个词向量或短语向量结合成一个向量。

我们先把它输入一个二次方程然后非线性处理,例如

注意V

我们计算

然后加上W_x输入非线性函数。

二次方程使我们可以表达词向量之间倍数类型的关系而不需要学习词矩阵。

RNTN是唯一能够解决上述问题的方法。

通过动态卷积神经网络我们可以取得超过RNTN表现的模型并不需要输入解析树。

Nano-ESG数据资源库的构建基于2023年初至2024年秋季期间采集的逾84万条新闻文本,从中系统提炼出企业环境、社会及治理维度的信息。其构建流程首先依据特定术语在德语与英语新闻平台上检索,初步锁定与德国DAX 40成分股企业相关联的报道。随后借助嵌入技术对文本段落执行去重操作,以降低内容冗余。继而采用GLiNER这一跨语言零样本实体识别系统,排除与目标企业无关的文档。在此基础上,通过GPT-3.5与GPT-4o等大规模语言模型对文本进行双重筛选:一方面判定其与ESG议题的相关性,另一方面生成简明的内容概要。最终环节由GPT-4o模型完成,它对每篇文献进行ESG情感倾向(正面、中性或负面)的判定,并标注所涉及的ESG具体维度,从而形成具备时序特征的ESG情感与维度标注数据集。 该数据集适用于多类企业可持续性研究,例如ESG情感趋势分析、ESG维度细分类别研究,以及企业可持续性事件的时序演变追踪。研究者可利用数据集内提供的新闻摘要、情感标签与维度分类,深入考察企业在不同时期的环境、社会及治理表现。此外,借助Bertopic等主题建模方法,能够从数据中识别出与企业相关的核心ESG议题,并观察这些议题随时间的演进轨迹。该资源以其开放获取特性与连续的时间覆盖,为探究企业可持续性表现的动态变化提供了系统化的数据基础。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值