Extractive Summarization using Continuous Vector Space Models

本文探讨了使用连续向量表示法进行语义感知句子表征,以衡量句子间的相似性,实验证明了该框架的有效性。研究了词嵌入(word embedding)、子模块优化(submodular optimization)和神经网络在摘要生成中的应用,展示了深度学习背景下自动编码器(auto-encoder)和递归神经网络(RNN)的作用。

Kågebäck M, Mogren O, Tahmasebi N, et al. Extractive Summarization using Continuous Vector Space Models[C]// Cvsc at Eacl. 2014.
##Abstract

  • Using continuous vector representations for semantically aware representations of sentences as a basis for measuring similarity.
    连续向量表示法在句子语义感知表征中的应用
    实验证明该框架的表现很好
    ##Introduction
  • word embedding
    知乎对word embedding的总结
    优快云对词嵌入的简述
  • Submodular Optimization
    模型优化
    收益递减性质,来源于直觉,即把一个句子加到一小句子(即摘要)中比把一个句子加到一个更大的一个集合上做出的贡献更大。
  • This objective function can be formulated
    as follows:
    这里写图片描述
    where S is the summary, L(S) is the coverage of the input text, R(S) is a diversity reward function. The lamada is a trade-off coefficient that allows us to define the importance of coverage versus diversity of the summary.——NP-hard
  • if the objective function is submodular there is a fast scalable algorithm that returns an approximation with a guarantee.
    这里写图片描述
  • The weights Sim(i, j) used in the L function
    这里写图片描述
    where tfw,i and tfw,j are the number of occurrences of w in sentence i and j, and idfw is the inverse document frequency (idf ) of w.
    句子的相似性是通过tf-idf 高度重叠的词来计算的,但下面这种情况会被认为没有相似性:
    “The US President” and “Barack Obama”
    本文提出we will investigate the use of continuous vector representations for measuring similarity between sentences
    ##Background on Deep Learning
  • Feed Forward Neural Network(FFNN)
    这里写图片描述
    FFNN四输入神经元,一个隐藏层,和1个输出神经元。这种架构是适合一些数据X∈R4(四维空间)的分类,但根据输入的数量和复杂性,隐藏层的尺寸应相应缩小。

神经元是分层结构的,只允许连接到后续层。该算法与用非线性项进行logistic回归相似。

  • 线性回归,逻辑回归等
    回归问题介绍(详细)
    线性回归浅谈
  • An auto-encoder (AE), is a type of FFNN with a topology
    designed for dimensionality reduction(是一种拓扑设计的降维FFNN)
    这里写图片描述
    图中显示了一个自动编码器,它将四维数据压缩成二维代码。这是通过使用一个称为编码层的瓶颈层来实现的。

The input and the output layers in an AE are identical(输入层和输出层是一样的)

  • Recursive Neural Network递归神经网络
    RNN is a type of feed forward neural network that can process data through an arbitrary binary tree structure
    这里写图片描述
    递归神经网络结构使可变长度输入数据成为可能。通过对所有层使用相同的维数,任意二叉树结构可以递归处理。
    输入数据被放置在树的叶节点中,并使用此树的结构将递归引导到根节点。在树上的每个非终结节点递归计算压缩表示,在每个节点上使用相同的权重矩阵。更确切地说,可以使用以下公式:
    ##Word Embeddings
    Continuous distributed vector representation of
    words, also referred to as word embeddings
    一个词的嵌入是一个连续的向量表示,它捕获单词的语义和句法信息。可用来揭示单词之间的相似性
    计算word embedding方法:
  1. Collobert &Weston CW vector
    这里写图片描述
  2. Continuous Skip-gram 提出的方法: Word2Vec
    这里写图片描述
    这里写图片描述

##Phrase Embeddings
这里写图片描述
where xp is a phrase embedding, and xw is a word embedding. We use this method for computing phrase embeddings as a baseline in our experiments
-Unfolding Recursive Auto-encoder
这里写图片描述
unfolding RAE的结构,在一个三字词([x1,x2,x3])上。 使用权重矩阵seta(e)对压缩表示进行编码,而使用seta(d)对表示进行解码并重构句子
##Measuring Similarity
短语嵌入为句子提供了语义意识表示。 为了总结,我们需要测量两个表示之间的相似性,并将利用以下两个向量相似性度量。 第一个相似性度量是余弦相似度,转换为[0,1]
这里写图片描述
其中x表示短语嵌入。第二个相似性是基于欧几里得距离的补充,并计算为:
这里写图片描述
##Conclusion
本文的研究结果表明在词汇和词组嵌入方面有很大的应用潜力。 我们相信,通过使用嵌入,我们转向更多的语义意识汇总系统。

本研究基于扩展卡尔曼滤波(EKF)方法,构建了一套用于航天器姿态与轨道协同控制的仿真系统。该系统采用参数化编程设计,具备清晰的逻辑结构和详细的代码注释,便于用户根据具体需求调整参数。所提供的案例数据可直接在MATLAB环境中运行,无需额外预处理步骤,适用于计算机科学、电子信息工程及数学等相关专业学生的课程设计、综合实践或毕业课题。 在航天工程实践中,精确的姿态与轨道控制是保障深空探测、卫星组网及空间设施建设等任务成功实施的基础。扩展卡尔曼滤波作为一种适用于非线性动态系统的状态估计算法,能够有效处理系统模型中的不确定性与测量噪声,因此在航天器耦合控制领域具有重要应用价值。本研究实现的系统通过模块化设计,支持用户针对不同航天器平台或任务场景进行灵活配置,例如卫星轨道维持、飞行器交会对接或地外天体定点着陆等控制问题。 为提升系统的易用性与教学适用性,代码中关键算法步骤均附有说明性注释,有助于用户理解滤波器的初始化、状态预测、观测更新等核心流程。同时,系统兼容多个MATLAB版本(包括2014a、2019b及2024b),可适应不同的软件环境。通过实际操作该仿真系统,学生不仅能够深化对航天动力学与控制理论的认识,还可培养工程编程能力与实际问题分析技能,为后续从事相关技术研究或工程开发奠定基础。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值