1、TF-IDF
import jieba.analyse
jieba.analyse.extract_tags?
数据的读取
import pandas as pd
df_news=pd.read_table(r'C:\Users\CDAer\Desktop\data\car.txt',
names=['category','theme','url','content'])
df_news.head()
|
category |
theme |
url |
content |
0 |
汽车 |
新辉腾 4.2 V8 4座加长Individual版2011款 最新报价 |
http://auto.data.people.com.cn/model_15782/ |
经销商 电话 试驾/订车U憬杭州滨江区江陵路1780号4008-112233转5864#保常... |
1 |
汽车 |
918 Spyder概念车 |
http://auto.data.people.com.cn/prdview_165423.... |
呼叫热线 4008-100-300 服务邮箱 kf@peopledaily.com.cn |
2 |
汽车 |
日内瓦亮相 MINI性能版/概念车-1.6T引擎 |
http://auto.data.people.com.cn/news/story_5249... |
MINI品牌在二月曾经公布了最新的MINI新概念车Clubvan效果图,不过现在在日内瓦车展... |
3 |
汽车 |
清仓大甩卖一汽夏利N5威志V2低至3.39万 |
http://auto.data.people.com.cn/news/story_6144... |
清仓大甩卖!一汽夏利N5、威志V2低至3.39万=日,启新中国一汽强势推出一汽夏利N5、威志... |
4 |
汽车 |
大众敞篷家族新成员 高尔夫敞篷版实拍 |
http://auto.data.people.com.cn/news/story_5686... |
在今年3月的日内瓦车展上,我们见到了高尔夫家族的新成员,高尔夫敞篷版,这款全新敞篷车受到了众... |
数据的清洗
import jieba
content_list=df_news['content'].values.tolist()
stopwords=pd.read_csv(r'C:\Users\CDAer\Desktop\data\stopwords.txt',sep='\t',
quoting=3,names=['stopword'])
stopwords_list=stopwords['stopword'].values.tolist()
contents_clean=[]
for line in content_list:
seg=jieba.lcut(line)
line_clean=''