IMDB依存树情感分析数据集
树形情感分析和数据集
最近在做树形情感分析的任务,查阅了几篇论文,都是利用依存树来进行情感分析。但是现成的树形情感分析数据集Stanford treebank数据集是子句/短语结构树格式的,一些依存树情感分析的方法在字句/短语结构树上效果很差,又没有现成的依存树情感分析数据集,所以我决定利用Stanford dependency parser工具造一个依存树情感分析数据集。
数据/工具来源
- BFSU (Stanford Parser 1.0, based on Stanford Parser 2010)
配置Stanford Parser可以查阅网上的相关博客,但是我配置一直失败,所以我干脆在优快云上下载了别人写的GUI,用起来挺方便的。
- IMDB数据集
IMDB训练集/测试集25000/25000条,每条包括文本和评分标签(1-10,评分大于5为pos,否则为neg),我不准备使用无监督数据集。
数据集一开始是分散在不同文件中的,用merge_sentences.py脚本把它们合并起来。
depenency tree parsing
因为数据集过大,所以不能直接整个文件去解析,所以用split_sentences.py脚本分割数据集为2500个文件,每个文件20个句子。
因为一个句子里面有多个

最低0.47元/天 解锁文章
114

被折叠的 条评论
为什么被折叠?



