IMDB依存树情感分析数据集

IMDB依存树情感分析数据集


树形情感分析和数据集

  最近在做树形情感分析的任务,查阅了几篇论文,都是利用依存树来进行情感分析。但是现成的树形情感分析数据集Stanford treebank数据集是子句/短语结构树格式的,一些依存树情感分析的方法在字句/短语结构树上效果很差,又没有现成的依存树情感分析数据集,所以我决定利用Stanford dependency parser工具造一个依存树情感分析数据集。


数据/工具来源

  • BFSU (Stanford Parser 1.0, based on Stanford Parser 2010)
      配置Stanford Parser可以查阅网上的相关博客,但是我配置一直失败,所以我干脆在优快云上下载了别人写的GUI,用起来挺方便的。
      
  • IMDB数据集
      IMDB训练集/测试集25000/25000条,每条包括文本和评分标签(1-10,评分大于5为pos,否则为neg),我不准备使用无监督数据集。
      数据集一开始是分散在不同文件中的,用merge_sentences.py脚本把它们合并起来。

depenency tree parsing

  因为数据集过大,所以不能直接整个文件去解析,所以用split_sentences.py脚本分割数据集为2500个文件,每个文件20个句子。

  因为一个句子里面有多个

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值