本次数据:
来源豆瓣电影
40万条短评
50条以上评论电影1100多部
数据储存在sqlite数据库里
左侧点开Tables,可以看到有三张表
双击comment
在右侧点击数据标签可以查看
观察每行都有哪些数据
ID: 序号 TIME: 时间 MOVIEID: 豆瓣电影ID RATING: 该评论打分
CONTENT: 评论内容 CREATOR: 评论者 ADD_TIME:添加时间
“结巴”中文分词
https://github.com/fxsjy/jieba
• 支持三种分词模式: • 精确模式,试图将句子最精确地切开,适合文本分析; • 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常
快,但是不能解决歧义; • 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召
回率,适合用于搜索引擎分词。 • 支持繁体分词 • 支持自定义词典 • MIT 授权协议
安装:
pip install jieba
pip3 install jieba
import sqlite3
import pandas as pd
import jieba
from pyecharts.faker import Faker
from pyecharts.charts import WordCloud
from pyecharts import options as opts
import math
#导入sqlite3和pandas,jiebad 词云图
#
FILTER_WORDS = ["知道",'电影',"片子","这么",'那么','怎么','是','的','这个','那个','什么','一部','这部','没有','觉得','认为',"\n",'....']
#建立过滤词列表 需要根据实际情况来调整过滤词列表 具体内容具体判断
def get_movie_id_list(min_comment_count): #id
movie_list = comment_data["MOVIEID"].value_counts()
movie_list = movie_list