Improving Twitter Sentiment Classification Using Topic-Enriched Multi-Prototype Word Embeddings

本文介绍了一种使用主题丰富和多原型词嵌入的神经网络模型,以提高Twitter情感分类的准确性。模型结合本地上下文和全局上下文,解决词嵌入单一性问题,并通过k-means聚类学习单词的多个嵌入。

1. 介绍

本文主要介绍论文Improving Twitter Sentiment Classification Using Topic-Enriched Multi-Prototype Word Embeddings. In Proceedings of AAAI的思路

1.1 词嵌入的问题

  1. 大多数学习词嵌入的方法(数据来源:twitter), 忽略了推文的主题

例如:

  • Monday before I leave Singapore, I am going to post something that might be offensive. (NEGATIVE)
  • #Patriots Tom Brady wins AFC offensive player of the week for 22nd time… http://t.co/WlFHyQ0I – #NFL(POSITIVE)
    上述两条推文中的“offensive”表现出不同情绪极性,因为它们的主题不同。
  1. 每个词只有一个词嵌入与之对应,但一个词可以有多种含义(基于不同的语境)

2.2 论文主要贡献

  1. 使用神经网络构建模型。 模型通过结合本地上下文(n-gram)和全局上下文(情感和主题分布)来学习词嵌入。(词嵌入问题1解决方案

  2. 其次,我们扩展模型以学习每个单词的多个嵌入,从而提供更好的性能。 (词嵌入问题2解决方案

  3. 最后,通过使用不同的单词表示来集成我们提出的模型和当前最佳模型,可以进一步提高性能。

2. 学习主题丰富的词嵌入

模型:
在这里插入图片描述

不同模型结构以及训练的具体细节可以查看论文Yafeng Ren, Yue Zhang, Meishan Zhang, and Donghong Ji. 2016. Improving Twitter Sentiment Classification Using Topic-Enriched Multi-Prototype Word Embeddings. In Proceedings of AAAI.

思路整理:

+ topic
+ semtiment
C&W model
TEWE
TSWE

3. 学习多个原型嵌入

思路整理:

  1. 为了学习多个原型嵌入,我们首先通过简单地使用频率阈值来识别多义词,该阈值设置为原型数p的三倍。

  2. 对于每个高频词的实例,我们计算一个“环境向量” Env
    E n v = [ ∑ i ∈ c o n t e x t L i ∗ i f d w i ; g t o p i c ] Env = [\sum_{i \in context } L_i*ifd_{w_i};g^{topic} ] Env=[icontextLiifdwi;gtopic]

  3. 使用k-means聚类(k = 10)
    d ( E n v 1 , E n v 2 ) = 1 − E n v 1 ∗ E n v 2 ∣ ∣ E n v 1 ∣ ∣ ∗ ∣ ∣ E n v 2 ∣ ∣ d(Env_1,Env2) = 1 - \frac{Env_1*Env_2}{||Env_1||*||Env_2||} d(Env1,Env2)=1Env1Env2Env1Env2

  4. 减少类簇(如果两个聚类中心比较接近,则合并)

使用:

  1. 输入一个词w
  2. 计算w的环境向量Env
  3. 与该词的几个聚类中心比较,找到最接近的,选择该词向量作为输入

文献

Yafeng Ren, Yue Zhang, Meishan Zhang, and Donghong Ji. 2016. Improving Twitter Sentiment Classification Using Topic-Enriched Multi-Prototype Word Embeddings. In Proceedings of AAAI.

基于模拟退火的计算器 在线运行 访问run.bcjh.xyz。 先展示下效果 https://pan.quark.cn/s/cc95c98c3760 参见此仓库。 使用方法(本地安装包) 前往Releases · hjenryin/BCJH-Metropolis下载最新 ,解压后输入游戏内校验码即可使用。 配置厨具 已在2.0.0弃用。 直接使用白菜菊花代码,保留高级厨具,新手池厨具可变。 更改迭代次数 如有需要,可以更改 中39行的数字来设置迭代次数。 本地编译 如果在windows平台,需要使用MSBuild编译,并将 改为ANSI编码。 如有条件,强烈建议这种本地运行(运行可加速、可多次重复)。 在 下运行 ,是游戏中的白菜菊花校验码。 编译、运行: - 在根目录新建 文件夹并 至build - - 使用 (linux) 或 (windows) 运行。 最后在命令行就可以得到输出结果了! (注意顺序)(得到厨师-技法,表示对应新手池厨具) 注:linux下不支持多任务选择 云端编译已在2.0.0弃用。 局限性 已知的问题: - 无法得到最优解! 只能得到一个比较好的解,有助于开阔思路。 - 无法选择菜品数量(默认拉满)。 可能有一定门槛。 (这可能有助于防止这类辅助工具的滥用导致分数膨胀? )(你问我为什么不用其他语言写? python一个晚上就写好了,结果因为有涉及json读写很多类型没法推断,jit用不了,算这个太慢了,所以就用c++写了) 工作原理 采用两层模拟退火来最大化总能量。 第一层为三个厨师,其能量用第二层模拟退火来估计。 也就是说,这套方法理论上也能算厨神(只要能够在非常快的时间内,算出一个厨神面板的得分),但是加上厨神的食材限制工作量有点大……以后再说吧。 (...
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值