一:读取数据
数据源 http://www.sogou.com/labs/resource/ca.php
import pandas as pd
import numpy as np
import jieba #pip install jieba
df_news=pd.read_table('data/val.txt',names=['category','theme','URL','content'],encoding='utf-8')
df_news=df_news.dropna()
df_news.head()
df_news.shape
输出为:(5000, 4)
二:将数据中的content列转换为list 格式
content=df_news.content.values.tolist() #jieba分词器要求输入的数据为list格式 所以将数据中的content列转换为list 格式
print (content[1000])
三:使用jieba分词器分词
content_S=[]
for line in content:
current_segment=jieba.lcut(line)
if len(current_segment)>1 and current_segment !='\r\n': #换行符
content_S.append(current_segment)
content_S[1000]
输出为:
四:将分词后的content生成Dataframe格式
df_content=pd.DataFrame({
'content_S':content_S})
df_content.head()