训练词向量时,本来就是准备好格式一定训练文本,然后调用gensim开始训练。但是训练过程中出现了这样的幺蛾子,编码坑
UnicodeDecodeError: 'utf8' codec can't decode bytes in position 4229-4231: invalid continuation byte
可能原因,文本中有不能解码的字符,无法处理。于是参看一下文本,感觉还不错,效果未知
参看:http://blog.youkuaiyun.com/xiaoguaihai/article/details/25735937