https://blog.youkuaiyun.com/u010967382/article/details/79728404
https://zhangzirui.github.io/posts/Document-14%20(sklearn-feature).md
在用CountVectorizer()计算文本特征时,发现单个的词会被过滤掉,发现在CountVectorizer()中设置参数analyzer='word',token_pattern=u"(?u)\\b\\w+\\b" 可以同时支持字词的模式,参考以上两篇博文
count_vector = CountVectorizer()
vector_matrix = count_vector.fit_transform(texts)