文本特征抽取
需要使用到jieba库
from sklearn.feature_extraction.text import CountVectorizer
import jieba
li = ['想变成天上忽明忽暗的云朵',
'想吃掉世上最美味的一切',
'一想到你呀,我这张脸,就泛起微笑',
'爱你,就像爱生命',
'当我跨过沉沦的一切,你是我的旗帜']
# 利用jieba库对文本进行分隔
jieba_data = []
for i in li:
jieba_data.append(' '.join(jieba.lcut(i)))
print(jieba_data)
def countvec():
# 实例化
cv = CountVectorizer()
# 调用fi_transform方法
data = cv.fit_transform(jieba_data)
print(cv.get_feature_names())
print(data.toarray())
if __name__ == '__main__':
countvec()

’ ‘.jion()方法是将多个字符串拼接成一个以空格连接的字符串的方法,’ '内可添加需要以什么符号连接