贝叶斯应用_文本分析_代码实践

原创

于 2018-09-07 02:01:56 发布 · 551 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#文本分析 #贝叶斯分类器

本文通过读取数据，利用jieba进行分词，去除停用词，采用TF-IDF提取关键词，构建WordCloud进行文本可视化，并使用CountVectorizer和TfidfVectorizer将文章转化为向量，最后通过贝叶斯分类器进行文本分类，实现了对文本数据的高效分析，分类器精度达到0.8152。

一：读取数据

数据源 http://www.sogou.com/labs/resource/ca.php

import pandas as pd
import numpy as np
import jieba #pip install jieba

df_news=pd.read_table('data/val.txt',names=['category','theme','URL','content'],encoding='utf-8')
df_news=df_news.dropna()
df_news.head()

这里写图片描述

df_news.shape

输出为：(5000, 4)

二：将数据中的content列转换为list 格式

content=df_news.content.values.tolist() #jieba分词器要求输入的数据为list格式 所以将数据中的content列转换为list 格式
print (content[1000])

这里写图片描述

三：使用jieba分词器分词

content_S=[]
for line in content:
    current_segment=jieba.lcut(line)
    if len(current_segment)>1 and current_segment !='\r\n': #换行符
        content_S.append(current_segment)
content_S[1000]

输出为：
这里写图片描述

四：将分词后的content生成Dataframe格式

df_content=pd.DataFrame({
  
  'content_S':content_S})
df_content.head()

最低0.47元/天解锁文章

新学期VIP享超值加赠