1.nltk_data 的数据集找不到
1.1 问题
nltk_data
的数据conll2002
下载慢,使用git 加速下载后(https://hub.fastgit.org/nltk/nltk_data.git),发现不可以使用,路径使用data.path.append('/home/zutnlp/nltk_data')
添加路径 ,但还是找不到对应的数据集
1.2 解决办法
从git上拉取的nltk_tata
与 nltk.download()
下载的数据放置的位置不一样,需要移动数据packages/corpora/conll2002
到nltk_data/corpora/
目录下,其中nltk.download()
下载的数据就在nltk_data/corpora
(python36) zutnlp@Dell-R730:~/nltk_data$ tree -L 5
.
├── collections
│ ├── all-corpora.xml
│ ├── all-nltk.xml
│ ├── all.xml
│ ├── book.xml
│ ├── popular.xml
│ ├── tests.xml
│ └── third-party.xml
├── corpora
│ ├── conll2000.xml
│ ├── conll2000.zip
│ ├── conll2002.xml
│ ├── conll2002.zip
│ ├── conll2007.xml
│ └── conll2007.zip
├── index.xml
├── index.xsl
├── Makefile
├── packages
│ ├── chunkers
│ │ ├── maxent_ne_chunker.xml
│ │ └── maxent_ne_chunker.zip
│ ├── corpora
│ │ ├── abc.xml
│ │ ├── abc.zip
│ │ ├── alpino.xml
│ │ ├── alpino.zip
│ │ ├── biocreative_ppi.xml
│ │ ├── biocreative_ppi.zip
│ │ ├── brown_tei.xml
│ │ ├── brown_tei.zip
│ │ ├── brown.xml
│ │ ├── brown.zip
│ │ ├── cess_cat.xml
│ │ ├── cess_cat.zip
│ │ ├── cess_esp.xml
│ │ ├── cess_esp.zip
│ │ ├── chat80.xml
│ │ ├── chat80.zip
│ │ ├── city_database.xml
│ │ ├── city_database.zip
│ │ ├── cmudict.xml
│ │ ├── cmudict.zip
│ │ ├── comparative_sentences.xml
│ │ ├── comparative_sentences.zip
│ │ ├── comtrans.xml
│ │ ├── comtrans.zip
│ │ ├── conll2000.xml
│ │ ├── conll2000.zip
│ │ ├── conll2002.xml
│ │ ├── conll2002.zip
│ │ ├── conll2007.xml
│ │ ├── conll2007.zip
│ │ ├── crubadan.xml
│ │ ├── crubadan.zip
│ │ ├── dependency_treebank.xml
│ │ ├── dependency_treebank.zip
│ │ ├── dolch.xml
│ │ ├── dolch.zip
│ │ ├── europarl_raw.xml
│ │ ├── europarl_raw.zip
│ │ ├── floresta.xml
│ │ ├── floresta.zip
│ │ ├── framenet_v15.xml
│ │ ├── framenet_v15.zip
│ │ ├── framenet_v17.xml
│ │ ├── framenet_v17.zip
│ │ ├── gazetteers.xml
│ │ ├── gazetteers.zip
│ │ ├── genesis.xml
│ │ ├── genesis.zip
│ │ ├── gutenberg.xml
│ │ ├── gutenberg.zip
│ │ ├── ieer.xml
│ │ ├── ieer.zip
│ │ ├── inaugural.xml
│ │ ├── inaugural.zip
│ │ ├── indian.xml
│ │ ├── indian.zip
│ │ ├── jeita.xml
│ │ ├── jeita.zip
│ │ ├── kimmo.xml
│ │ ├── kimmo.zip
│ │ ├── knbc.xml
│ │ ├── knbc.zip
│ │ ├── lin_thesaurus.xml
│ │ ├── lin_thesaurus.zip
│ │ ├── listing.csv
│ │ ├── listing.csv.zip
│ │ ├── machado.xml
│ │ ├── machado.zip
│ │ ├── mac_morpho.xml
│ │ ├── mac_morpho.zip
│ │ ├── masc_tagged.xml
│ │ ├── masc_tagged.zip
│ │ ├── movie_reviews.xml
│ │ ├── movie_reviews.zip
│ │ ├── mte_teip5.xml
│ │ ├── mte_teip5.zip
│ │ ├── names.xml
│ │ ├── names.zip
│ │ ├── nombank.1.0.xml
│ │ ├── nombank.1.0.zip
│ │ ├── nonbreaking_prefixes.xml
│ │ ├── nonbreaking_prefixes.zip
│ │ ├── nps_chat.xml
│ │ ├── nps_chat.zip
│ │ ├── omw.xml
│ │ ├── omw.zip
│ │ ├── opinion_lexicon.xml
│ │ ├── opinion_lexicon.zip
│ │ ├── panlex_swadesh.xml
│ │ ├── panlex_swadesh.zip
│ │ ├── paradigms.xml
│ │ ├── paradigms.zip
│ │ ├── pe08.xml
│ │ ├── pe08.zip
│ │ ├── pil.xml
│ │ ├── pil.zip
│ │ ├── pl196x.xml
│ │ ├── pl196x.zip
│ │ ├── ppattach.xml
│ │ ├── ppattach.zip
│ │ ├── problem_reports.xml
│ │ ├── problem_reports.zip
│ │ ├── product_reviews_1.xml
│ │ ├── product_reviews_1.zip
│ │ ├── product_reviews_2.xml
│ │ ├── product_reviews_2.zip
│ │ ├── propbank.xml
│ │ ├── propbank.zip
│ │ ├── pros_cons.xml
│ │ ├── pros_cons.zip
│ │ ├── ptb3.zip
│ │ ├── ptb.xml
│ │ ├── ptb.zip
│ │ ├── qc.xml
│ │ ├── qc.zip
│ │ ├── reuters.xml
│ │ ├── reuters.zip
│ │ ├── rte.xml
│ │ ├── rte.zip
│ │ ├── semcor.xml
│ │ ├── semcor.zip
│ │ ├── senseval.xml
│ │ ├── senseval.zip
│ │ ├── sentence_polarity.xml
│ │ ├── sentence_polarity.zip
│ │ ├── sentiwordnet.xml
│ │ ├── sentiwordnet.zip
│ │ ├── shakespeare.xml
│ │ ├── shakespeare.zip
│ │ ├── sinica_treebank.xml
│ │ ├── sinica_treebank.zip
│ │ ├── smultron.xml
│ │ ├── smultron.zip
│ │ ├── state_union.xml
│ │ ├── state_union.zip
│ │ ├── stopwords.xml
│ │ ├── stopwords.zip
│ │ ├── subjectivity.xml
│ │ ├── subjectivity.zip
│ │ ├── swadesh.xml
│ │ ├── swadesh.zip
│ │ ├── switchboard.xml
│ │ ├── switchboard.zip
│ │ ├── timit.xml
│ │ ├── timit.zip
│ │ ├── toolbox.xml
│ │ ├── toolbox.zip
│ │ ├── treebank.xml
│ │ ├── treebank.zip
│ │ ├── twitter_samples.xml
│ │ ├── twitter_samples.zip
│ │ ├── udhr2.xml
│ │ ├── udhr2.zip
│ │ ├── udhr.xml
│ │ ├── udhr.zip
│ │ ├── unicode.notes
│ │ ├── unicode_samples.xml
│ │ ├── unicode_samples.zip
│ │ ├── universal_treebanks_v20.xml
│ │ ├── universal_treebanks_v20.zip
│ │ ├── verbnet3.xml
│ │ ├── verbnet3.zip
│ │ ├── verbnet.xml
│ │ ├── verbnet.zip
│ │ ├── webtext.xml
│ │ ├── webtext.zip
│ │ ├── wordnet_ic.xml
│ │ ├── wordnet_ic.zip
│ │ ├── wordnet.xml
│ │ ├── wordnet.zip
│ │ ├── words.xml
│ │ ├── words.zip
│ │ ├── ycoe.xml
│ │ └── ycoe.zip
│ ├── grammars
│ │ ├── basque_grammars.xml
│ │ ├── basque_grammars.zip
│ │ ├── book_grammars.xml
│ │ ├── book_grammars.zip
│ │ ├── large_grammars.xml
│ │ ├── large_grammars.zip
│ │ ├── sample_grammars.xml
│ │ ├── sample_grammars.zip
│ │ ├── spanish_grammars.xml
│ │ └── spanish_grammars.zip
│ ├── help
│ │ ├── tagsets.xml
│ │ └── tagsets.zip
│ ├── misc
│ │ ├── mwa_ppdb.xml
│ │ ├── mwa_ppdb.zip
│ │ ├── perluniprops.xml
│ │ └── perluniprops.zip
│ ├── models
│ │ ├── bllip_wsj_no_aux.xml
│ │ ├── bllip_wsj_no_aux.zip
│ │ ├── moses_sample.xml
│ │ ├── moses_sample.zip
│ │ ├── wmt15_eval.xml
│ │ ├── wmt15_eval.zip
│ │ ├── word2vec_sample.xml
│ │ └── word2vec_sample.zip
│ ├── sentiment
│ │ ├── vader_lexicon.xml
│ │ └── vader_lexicon.zip
│ ├── stemmers
│ │ ├── porter_test.xml
│ │ ├── porter_test.zip
│ │ ├── rslp.xml
│ │ ├── rslp.zip
│ │ ├── snowball_data.xml
│ │ └── snowball_data.zip
│ ├── taggers
│ │ ├── averaged_perceptron_tagger_ru.xml
│ │ ├── averaged_perceptron_tagger_ru.zip
│ │ ├── averaged_perceptron_tagger.xml
│ │ ├── averaged_perceptron_tagger.zip
│ │ ├── maxent_treebank_pos_tagger.xml
│ │ ├── maxent_treebank_pos_tagger.zip
│ │ ├── universal_tagset.xml
│ │ └── universal_tagset.zip
│ └── tokenizers
│ ├── punkt.xml
│ └── punkt.zip
├── README.txt
└── tools
├── build_pkg_index.py
└── download.sh