[BracketParseCorpusReader]
from nltk.corpus import BracketParseCorpusReader
corpus_root =r"F:\nltk_data\corpora\SogouC.reduced.20061127\SogouC.reduced\Reduced" # r"" 防止转义
file_pattern = r".*/.*\.txt" #匹配corpus_root目录下的所有子目录下的txt文件
ptb = BracketParseCorpusReader(corpus_root, file_pattern) #初始化读取器:语料库目录和要加载文件的格式,默认utf8格式的编码
ptb.fileids() #至此,可以看到目录下的所有文件名,例如C000008/1001.txt,则成功了
ptb.raw(“C000008/1001.txt”) # 如果C000008/1001.txt编码格式和ptb格式一致,则看到内容