用深度学习做垂直领域的句子主题模型

最新推荐文章于 2024-11-19 18:05:52 发布

原创最新推荐文章于 2024-11-19 18:05:52 发布 · 5.4k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#LSTM #话题管理 #主题管理 #深度学习 #NLP

深度学习同时被 3 个专栏收录

94 篇文章

订阅专栏

自然语言处理

36 篇文章

订阅专栏

20 篇文章

订阅专栏

介绍一种基于深度学习的句子级主题模型，通过提取句子主干并利用双向LSTM进行话题分类，实现句子主题识别。

用深度学习做垂直领域的句子主题模型

经典的篇章级的主题模型LDA已经被证明是行之有效的，这里我介绍一下项目中做过的句子级的主题管理，其目的是识别当前的句子属于某个话题。

我的基本思想是：一句话的中心意思可以用句子主干来表示，多句话的中心意思则可以用每句话的中心意思叠加起来表示。

先看几个例子，以下的句子都是单句，复合句也类似：

A.我听的歌很好听
B.我要听很好听的歌
C.我听歌后心情很好

主干：

A句的主干是：歌，好听
B句的主干是：听，歌
C句的主干是：心情，好

假设我们想识别3类话题：听歌、评歌、其他

简述过程：

1）标注数据

我听的歌很好听==》评歌
我要听很好听的歌==》听歌
我听歌后心情很好==》其他

2）数据处理

使用深度学习提取句子主干模块，生成句子主干：
我听的歌很好听==》歌，好听
我要听很好听的歌==》听，歌
我听歌后心情很好==》心情，好

3）生成主干词表

歌，好听，听，心情，好

4）词嵌入

主干词表使用one-hot表示，然后做词嵌入

5）话题表示

转‘评歌、听歌、其他’为0、 1、 2表示

6）模型

把话题识别看成是多分类问题，模型网络使用Bi-directional LSTM，模型框架使用tensorflow

说明：

1）本文仅使用分词，不用词性、词义、语义等
2）对模型使用同义词，会大大提高模型的鲁棒性。这里的同义词只需要垂直领域中的核心词汇的同义词。
3）“深度学习提取句子主干模块”有空我再上贴详细阐述
4）模型代码我就不上帖了，涉及到x密，大家可以参考“情感分类”的做法
5）对于三个分类中的“其他”分类，可以使用通用语料的数据来抽样自动标注

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

szZack 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。