文本数据的读取与处理
1.读取数据
import pandas as pd
df = pd.read_excel('新闻.xlsx')
df.head()

2.中文分词
(1)简单演示
# 中文分词演示
import jieba
word = jieba.cut('我爱北京天安门')
for i in word:
print(i)

# 第一条新闻标题
df.iloc[0]['标题']
![]()
# 第一条新闻标题中文分词
import jieba
word = jieba.cut(df.iloc[0]['标题'])
result = ' '.join(word)
print(result)
![]()
(2)实战应用
# 通过for循环遍历来进行所有标题的分词
import jieba
words = []
for i, row in df.iterrows():
word = jieba.cut(row['标题'])
result = ' '.join(word)
words.append(result)
![]()
# 熟悉了上面的过程后,可以把代码合并写成如下形式
import jieba
words = []
for i, row in df.iterrows():
words.append(' '.join(jieba.cut(r

最低0.47元/天 解锁文章
2656

被折叠的 条评论
为什么被折叠?



