《Denoising Distantly Supervised Open-Domain Question Answering》浅析

最新推荐文章于 2024-10-01 05:00:00 发布

La_La_Land

最新推荐文章于 2024-10-01 05:00:00 发布

阅读量621

点赞数 1

分类专栏： papers 文章标签： NLP NOISE select

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_40909358/article/details/88774354

版权

papers 专栏收录该内容

4 篇文章

订阅专栏

前言：

小编所写博客主要目的是记录之用，不免显得琐碎唠叨，不过分享出来如果能有只言片语帮到大家也是极好的。若您觉得一无所获，请及早退出，若有想法进一步交流，可评论。（原谅我没有时间排版）

论文题目:远距离监督开放问答的降噪。

1.论文提出一种新模，包括一个可以去除噪音文章的选择器，和一个从文中找出正确答案的reader。那么重点就在这个选择器怎么实现。

2.这幅图可以很好地解释这篇文章的创新点：

相比于之前的文章，作者的切入点是：之前确实有文章做过降噪处理，但是他们没有从源头做起，具体来说就是依靠于改进reader来提取正确答案，达到更好的效果。但是作者从源头做起，在第一步得到几篇文章以后，先做一个select，去除那些跟问题实际上没有关系的文章，这样第二步reader的效果就会更好。

3.下面我们关键来看如何去噪（方法）：

question q =(q1, q2, · · · , q|q|)

m paragraphs which are deﬁned as P = {p1, p2, · · · , pm }

where pi = (p1i,p2i,· · · , p|pi |i)

我们的目标就是在给定的文章集合P，和问题q的情况下，答案a的概率。

（1）文章选择器的目标函数： Pr(pi |q, P)，在给定P和q的情况下计算每篇文章的概率

（2）reader函数： Pr(a|q, pi)，用LSTM实现，根据概率公式

段落编码：

把段落的每一个词都转换成向量，然后扔到某个神经网络中去，比如RNN，然后得到得到他们的隐藏状态，这个隐藏状态中包含了这个词以及周围的词的语法信息（虽然我也不知道为什么这么说）

然后用类似的方法编码问题，其中用到了attention，不过不难，只是增加了权重信息而已。大概如下：

最后只需要这个公式就可以得到我们之前提到的目标函数：

之后的具体细节小编先留着，等有必要再继续研读。

总之，本文的核心思想就是加入了select这个步骤。

未完待续···

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。