# de-tokenization
detokenized_cn_doc = [] ### ***** ###
for i in range(len(news_df)):
t = ' '.join(tokenized_cn_doc[i])
detokenized_cn_doc.append(t)
news_cn_df['token_cn_doc'] = detokenized_cn_doc
detokenized_cn_doc格式是 [‘崔宥莉 成为 了 中国女足 又 一名 强劲 的 对手’, ‘本文 为 作者 原创 未经 授权 不得 转载’]
import xlwt
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer, TfidfTransformer
# 计算词频
count_vectorizer = CountVectorizer(min_df