Extractive Summarization using Continuous Vector Space Models

本文探讨了使用连续向量表示法进行语义感知句子表征,以衡量句子间的相似性,实验证明了该框架的有效性。研究了词嵌入(word embedding)、子模块优化(submodular optimization)和神经网络在摘要生成中的应用,展示了深度学习背景下自动编码器(auto-encoder)和递归神经网络(RNN)的作用。

Kågebäck M, Mogren O, Tahmasebi N, et al. Extractive Summarization using Continuous Vector Space Models[C]// Cvsc at Eacl. 2014.
##Abstract

  • Using continuous vector representations for semantically aware representations of sentences as a basis for measuring similarity.
    连续向量表示法在句子语义感知表征中的应用
    实验证明该框架的表现很好
    ##Introduction
  • word embedding
    知乎对word embedding的总结
    优快云对词嵌入的简述
  • Submodular Optimization
    模型优化
    收益递减性质,来源于直觉,即把一个句子加到一小句子(即摘要)中比把一个句子加到一个更大的一个集合上做出的贡献更大。
  • This objective function can be formulated
    as follows:
    这里写图片描述
    where S is the summary, L(S) is the coverage of the input text, R(S) is a diversity reward function. The lamada is a trade-off coefficient that allows us to define the importance of coverage versus diversity of the summary.——NP-hard
  • if the objective function is submodular there is a fast scalable algorithm that returns an approximation with a guarantee.
    这里写图片描述
  • The weights Sim(i, j) used in the L function
    这里写图片描述
    where tfw,i and tfw,j are the number of occurrences of w in sentence i and j, and idfw is the inverse document frequency (idf ) of w.
    句子的相似性是通过tf-idf 高度重叠的词来计算的,但下面这种情况会被认为没有相似性:
    “The US President” and “Barack Obama”
    本文提出we will investigate the use of continuous vector representations for measuring similarity between sentences
    ##Background on Deep Learning
  • Feed Forward Neural Network(FFNN)
    这里写图片描述
    FFNN四输入神经元,一个隐藏层,和1个输出神经元。这种架构是适合一些数据X∈R4(四维空间)的分类,但根据输入的数量和复杂性,隐藏层的尺寸应相应缩小。

神经元是分层结构的,只允许连接到后续层。该算法与用非线性项进行logistic回归相似。

  • 线性回归,逻辑回归等
    回归问题介绍(详细)
    线性回归浅谈
  • An auto-encoder (AE), is a type of FFNN with a topology
    designed for dimensionality reduction(是一种拓扑设计的降维FFNN)
    这里写图片描述
    图中显示了一个自动编码器,它将四维数据压缩成二维代码。这是通过使用一个称为编码层的瓶颈层来实现的。

The input and the output layers in an AE are identical(输入层和输出层是一样的)

  • Recursive Neural Network递归神经网络
    RNN is a type of feed forward neural network that can process data through an arbitrary binary tree structure
    这里写图片描述
    递归神经网络结构使可变长度输入数据成为可能。通过对所有层使用相同的维数,任意二叉树结构可以递归处理。
    输入数据被放置在树的叶节点中,并使用此树的结构将递归引导到根节点。在树上的每个非终结节点递归计算压缩表示,在每个节点上使用相同的权重矩阵。更确切地说,可以使用以下公式:
    ##Word Embeddings
    Continuous distributed vector representation of
    words, also referred to as word embeddings
    一个词的嵌入是一个连续的向量表示,它捕获单词的语义和句法信息。可用来揭示单词之间的相似性
    计算word embedding方法:
  1. Collobert &Weston CW vector
    这里写图片描述
  2. Continuous Skip-gram 提出的方法: Word2Vec
    这里写图片描述
    这里写图片描述

##Phrase Embeddings
这里写图片描述
where xp is a phrase embedding, and xw is a word embedding. We use this method for computing phrase embeddings as a baseline in our experiments
-Unfolding Recursive Auto-encoder
这里写图片描述
unfolding RAE的结构,在一个三字词([x1,x2,x3])上。 使用权重矩阵seta(e)对压缩表示进行编码,而使用seta(d)对表示进行解码并重构句子
##Measuring Similarity
短语嵌入为句子提供了语义意识表示。 为了总结,我们需要测量两个表示之间的相似性,并将利用以下两个向量相似性度量。 第一个相似性度量是余弦相似度,转换为[0,1]
这里写图片描述
其中x表示短语嵌入。第二个相似性是基于欧几里得距离的补充,并计算为:
这里写图片描述
##Conclusion
本文的研究结果表明在词汇和词组嵌入方面有很大的应用潜力。 我们相信,通过使用嵌入,我们转向更多的语义意识汇总系统。

基于TROPOMI高光谱遥感仪器获取的大气成分观测资料,本研究聚焦于大气污染物一氧化氮(NO₂)的空间分布与浓度定量反演问题。NO₂作为影响空气质量的关键指标,其精确监测对环境保护与大气科学研究具有显著价值。当前,利用卫星遥感数据结合先进算法实现NO₂浓度的高精度反演已成为该领域的重要研究方向。 本研究构建了一套以深度学习为核心的技术框架,整合了来自TROPOMI仪器的光谱辐射信息、观测几何参数以及辅助气象数据,形成多维度特征数据集。该数据集充分融合了不同来源的观测信息,为深入解析大气中NO₂的时空变化规律提供了数据基础,有助于提升反演模型的准确性与环境预测的可靠性。 在模型架构方面,项目设计了一种多分支神经网络,用于分别处理光谱特征与气象特征等多模态数据。各分支通过独立学习提取代表性特征,并在深层网络中进行特征融合,从而综合利用不同数据的互补信息,显著提高了NO₂浓度反演的整体精度。这种多源信息融合策略有效增强了模型对复杂大气环境的表征能力。 研究过程涵盖了系统的数据处理流程。前期预处理包括辐射定标、噪声抑制及数据标准化等步骤,以保障输入特征的质量与一致性;后期处理则涉及模型输出的物理量转换与结果验证,确保反演结果符合实际大气浓度范围,提升数据的实用价值。 此外,本研究进一步对不同功能区域(如城市建成区、工业带、郊区及自然背景区)的NO₂浓度分布进行了对比分析,揭示了人类活动与污染物空间格局的关联性。相关结论可为区域环境规划、污染管控政策的制定提供科学依据,助力大气环境治理与公共健康保护。 综上所述,本研究通过融合TROPOMI高光谱数据与多模态特征深度学习技术,发展了一套高效、准确的大气NO₂浓度遥感反演方法,不仅提升了卫星大气监测的技术水平,也为环境管理与决策支持提供了重要的技术工具。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值