一些较大的NLP数据下载,包括Yelp评论下载,google词向量下载等。传一个百度云,给从官方渠道下载不动的人。
- Yelp acadamic data, 官方地址Yelp Dataset Challenge, round 9. 用的时候不需要区分round9,解压开就行。里面有 review,user,business的json文件。baiduyun。大1小1.78G。
- Glove 词向量,大小1.75G。glove.42B.300d.zip
- Glove.6b.zip 822M
- glove.840B.300d.zip 2.03G
- GoogleNews-vectors-negative300.bin.gz 1.53G
- GoogleNews-vectors-negative300.bin 3.39G
- glove.twitter.27B.zip 1.41G
- 1-billion-word-language-modeling-benchmark-r13output.tar.gz 1.67G
- enwiki9.zip 307M
- enwiki-latest-pages-articles.xml.bz2 504M