在使用NLTK+stanford parser进行句法分析的时候发现,包含某些字、词的句子无法进行解析(如“你”,“一样”),一开始以为是stanford parser的问题,后来才发现是nltk中stanford.py文件的某行代码作祟:
stdout = stdout.replace(b'\xa0',b' ')
你:\xe4\xbd\xa0
一样:\xe4\xb8\x80\xe6\xa0\xb7
在使用NLTK+stanford parser进行句法分析的时候发现,包含某些字、词的句子无法进行解析(如“你”,“一样”),一开始以为是stanford parser的问题,后来才发现是nltk中stanford.py文件的某行代码作祟:
stdout = stdout.replace(b'\xa0',b' ')
你:\xe4\xbd\xa0
一样:\xe4\xb8\x80\xe6\xa0\xb7