nltk.corpus.conll2002.fileids() LookupError

博客内容主要讲述了在使用nltk_data下载conll2002数据集时遇到的下载速度慢的问题,以及通过git加速下载后数据集路径不匹配导致无法正常使用的问题。解决方案是将从git获取的数据移动到nltk_data的正确目录下,即把conll2002文件夹移动到nltk_data/corpora/目录,以便nltk能正确识别和加载数据集。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.nltk_data 的数据集找不到

1.1 问题

nltk_data 的数据conll2002下载慢,使用git 加速下载后(https://hub.fastgit.org/nltk/nltk_data.git),发现不可以使用,路径使用data.path.append('/home/zutnlp/nltk_data') 添加路径 ,但还是找不到对应的数据集

1.2 解决办法

从git上拉取的nltk_tatanltk.download() 下载的数据放置的位置不一样,需要移动数据packages/corpora/conll2002nltk_data/corpora/目录下,其中nltk.download()下载的数据就在nltk_data/corpora
在这里插入图片描述
在这里插入图片描述

(python36) zutnlp@Dell-R730:~/nltk_data$ tree -L 5
.
├── collections
│   ├── all-corpora.xml
│   ├── all-nltk.xml
│   ├── all.xml
│   ├── book.xml
│   ├── popular.xml
│   ├── tests.xml
│   └── third-party.xml
├── corpora
│   ├── conll2000.xml
│   ├── conll2000.zip
│   ├── conll2002.xml
│   ├── conll2002.zip
│   ├── conll2007.xml
│   └── conll2007.zip
├── index.xml
├── index.xsl
├── Makefile
├── packages
│   ├── chunkers
│   │   ├── maxent_ne_chunker.xml
│   │   └── maxent_ne_chunker.zip
│   ├── corpora
│   │   ├── abc.xml
│   │   ├── abc.zip
│   │   ├── alpino.xml
│   │   ├── alpino.zip
│   │   ├── biocreative_ppi.xml
│   │   ├── biocreative_ppi.zip
│   │   ├── brown_tei.xml
│   │   ├── brown_tei.zip
│   │   ├── brown.xml
│   │   ├── brown.zip
│   │   ├── cess_cat.xml
│   │   ├── cess_cat.zip
│   │   ├── cess_esp.xml
│   │   ├── cess_esp.zip
│   │   ├── chat80.xml
│   │   ├── chat80.zip
│   │   ├── city_database.xml
│   │   ├── city_database.zip
│   │   ├── cmudict.xml
│   │   ├── cmudict.zip
│   │   ├── comparative_sentences.xml
│   │   ├── comparative_sentences.zip
│   │   ├── comtrans.xml
│   │   ├── comtrans.zip
│   │   ├── conll2000.xml
│   │   ├── conll2000.zip
│   │   ├── conll2002.xml
│   │   ├── conll2002.zip
│   │   ├── conll2007.xml
│   │   ├── conll2007.zip
│   │   ├── crubadan.xml
│   │   ├── crubadan.zip
│   │   ├── dependency_treebank.xml
│   │   ├── dependency_treebank.zip
│   │   ├── dolch.xml
│   │   ├── dolch.zip
│   │   ├── europarl_raw.xml
│   │   ├── europarl_raw.zip
│   │   ├── floresta.xml
│   │   ├── floresta.zip
│   │   ├── framenet_v15.xml
│   │   ├── framenet_v15.zip
│   │   ├── framenet_v17.xml
│   │   ├── framenet_v17.zip
│   │   ├── gazetteers.xml
│   │   ├── gazetteers.zip
│   │   ├── genesis.xml
│   │   ├── genesis.zip
│   │   ├── gutenberg.xml
│   │   ├── gutenberg.zip
│   │   ├── ieer.xml
│   │   ├── ieer.zip
│   │   ├── inaugural.xml
│   │   ├── inaugural.zip
│   │   ├── indian.xml
│   │   ├── indian.zip
│   │   ├── jeita.xml
│   │   ├── jeita.zip
│   │   ├── kimmo.xml
│   │   ├── kimmo.zip
│   │   ├── knbc.xml
│   │   ├── knbc.zip
│   │   ├── lin_thesaurus.xml
│   │   ├── lin_thesaurus.zip
│   │   ├── listing.csv
│   │   ├── listing.csv.zip
│   │   ├── machado.xml
│   │   ├── machado.zip
│   │   ├── mac_morpho.xml
│   │   ├── mac_morpho.zip
│   │   ├── masc_tagged.xml
│   │   ├── masc_tagged.zip
│   │   ├── movie_reviews.xml
│   │   ├── movie_reviews.zip
│   │   ├── mte_teip5.xml
│   │   ├── mte_teip5.zip
│   │   ├── names.xml
│   │   ├── names.zip
│   │   ├── nombank.1.0.xml
│   │   ├── nombank.1.0.zip
│   │   ├── nonbreaking_prefixes.xml
│   │   ├── nonbreaking_prefixes.zip
│   │   ├── nps_chat.xml
│   │   ├── nps_chat.zip
│   │   ├── omw.xml
│   │   ├── omw.zip
│   │   ├── opinion_lexicon.xml
│   │   ├── opinion_lexicon.zip
│   │   ├── panlex_swadesh.xml
│   │   ├── panlex_swadesh.zip
│   │   ├── paradigms.xml
│   │   ├── paradigms.zip
│   │   ├── pe08.xml
│   │   ├── pe08.zip
│   │   ├── pil.xml
│   │   ├── pil.zip
│   │   ├── pl196x.xml
│   │   ├── pl196x.zip
│   │   ├── ppattach.xml
│   │   ├── ppattach.zip
│   │   ├── problem_reports.xml
│   │   ├── problem_reports.zip
│   │   ├── product_reviews_1.xml
│   │   ├── product_reviews_1.zip
│   │   ├── product_reviews_2.xml
│   │   ├── product_reviews_2.zip
│   │   ├── propbank.xml
│   │   ├── propbank.zip
│   │   ├── pros_cons.xml
│   │   ├── pros_cons.zip
│   │   ├── ptb3.zip
│   │   ├── ptb.xml
│   │   ├── ptb.zip
│   │   ├── qc.xml
│   │   ├── qc.zip
│   │   ├── reuters.xml
│   │   ├── reuters.zip
│   │   ├── rte.xml
│   │   ├── rte.zip
│   │   ├── semcor.xml
│   │   ├── semcor.zip
│   │   ├── senseval.xml
│   │   ├── senseval.zip
│   │   ├── sentence_polarity.xml
│   │   ├── sentence_polarity.zip
│   │   ├── sentiwordnet.xml
│   │   ├── sentiwordnet.zip
│   │   ├── shakespeare.xml
│   │   ├── shakespeare.zip
│   │   ├── sinica_treebank.xml
│   │   ├── sinica_treebank.zip
│   │   ├── smultron.xml
│   │   ├── smultron.zip
│   │   ├── state_union.xml
│   │   ├── state_union.zip
│   │   ├── stopwords.xml
│   │   ├── stopwords.zip
│   │   ├── subjectivity.xml
│   │   ├── subjectivity.zip
│   │   ├── swadesh.xml
│   │   ├── swadesh.zip
│   │   ├── switchboard.xml
│   │   ├── switchboard.zip
│   │   ├── timit.xml
│   │   ├── timit.zip
│   │   ├── toolbox.xml
│   │   ├── toolbox.zip
│   │   ├── treebank.xml
│   │   ├── treebank.zip
│   │   ├── twitter_samples.xml
│   │   ├── twitter_samples.zip
│   │   ├── udhr2.xml
│   │   ├── udhr2.zip
│   │   ├── udhr.xml
│   │   ├── udhr.zip
│   │   ├── unicode.notes
│   │   ├── unicode_samples.xml
│   │   ├── unicode_samples.zip
│   │   ├── universal_treebanks_v20.xml
│   │   ├── universal_treebanks_v20.zip
│   │   ├── verbnet3.xml
│   │   ├── verbnet3.zip
│   │   ├── verbnet.xml
│   │   ├── verbnet.zip
│   │   ├── webtext.xml
│   │   ├── webtext.zip
│   │   ├── wordnet_ic.xml
│   │   ├── wordnet_ic.zip
│   │   ├── wordnet.xml
│   │   ├── wordnet.zip
│   │   ├── words.xml
│   │   ├── words.zip
│   │   ├── ycoe.xml
│   │   └── ycoe.zip
│   ├── grammars
│   │   ├── basque_grammars.xml
│   │   ├── basque_grammars.zip
│   │   ├── book_grammars.xml
│   │   ├── book_grammars.zip
│   │   ├── large_grammars.xml
│   │   ├── large_grammars.zip
│   │   ├── sample_grammars.xml
│   │   ├── sample_grammars.zip
│   │   ├── spanish_grammars.xml
│   │   └── spanish_grammars.zip
│   ├── help
│   │   ├── tagsets.xml
│   │   └── tagsets.zip
│   ├── misc
│   │   ├── mwa_ppdb.xml
│   │   ├── mwa_ppdb.zip
│   │   ├── perluniprops.xml
│   │   └── perluniprops.zip
│   ├── models
│   │   ├── bllip_wsj_no_aux.xml
│   │   ├── bllip_wsj_no_aux.zip
│   │   ├── moses_sample.xml
│   │   ├── moses_sample.zip
│   │   ├── wmt15_eval.xml
│   │   ├── wmt15_eval.zip
│   │   ├── word2vec_sample.xml
│   │   └── word2vec_sample.zip
│   ├── sentiment
│   │   ├── vader_lexicon.xml
│   │   └── vader_lexicon.zip
│   ├── stemmers
│   │   ├── porter_test.xml
│   │   ├── porter_test.zip
│   │   ├── rslp.xml
│   │   ├── rslp.zip
│   │   ├── snowball_data.xml
│   │   └── snowball_data.zip
│   ├── taggers
│   │   ├── averaged_perceptron_tagger_ru.xml
│   │   ├── averaged_perceptron_tagger_ru.zip
│   │   ├── averaged_perceptron_tagger.xml
│   │   ├── averaged_perceptron_tagger.zip
│   │   ├── maxent_treebank_pos_tagger.xml
│   │   ├── maxent_treebank_pos_tagger.zip
│   │   ├── universal_tagset.xml
│   │   └── universal_tagset.zip
│   └── tokenizers
│       ├── punkt.xml
│       └── punkt.zip
├── README.txt
└── tools
    ├── build_pkg_index.py
    └── download.sh
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

aijava1

请我喝咖啡!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值