电影《误杀》的数据可视化分析

通过对电影《误杀》的评论数据进行分析,利用Python的数据处理库和可视化库,展示了评论的情感分析、评论时间趋势、评分分布及评论者城市分布等关键信息。

一.抓数据(豆瓣)处理数据

见github

二.数据可视化

import pandas as pd
import numpy as np
from pyecharts import options as opts
from pyecharts.charts import Pie, Page,Geo
from pyecharts.charts import Line
from pyecharts.charts import Bar
from pyecharts.charts import WordCloud
from pyecharts.globals import SymbolType, ThemeType,ChartType


# 定义函数转换推荐星级字段
def transform_star(x):
    if x == '力荐':
        return 5
    elif x == '推荐':
        return 4
    elif x == '还行':
        return 3
    elif x == '较差':
        return 2
    else:
        return 1


# 获取短评信息关键词
def get_comment_word(df):
    import jieba.analyse
    import os
    # 去停用词
    stop_words = set()

    # 加载停用词
    stop_words_path = './stopword.txt'

    with open(stop_words_path, 'r', encoding='utf-8') as sw:
         for line in sw.readlines():
            stop_words.add(line.strip())

    # 添加停用词
    stop_words.add('陈思诚')
    stop_words.add('一张')
    stop_words.add('一部')
    stop_words.add('肖央')
    stop_words.add('印度')
    stop_words.add('电影')
    stop_words.add('电影票')

    # 合并评论信息
    df_comment_all = df['短评信息'].str.cat()

    # 使用TF-IDF算法提取关键词
    word_num = jieba.analyse.extract_tags(df_comment_all, topK=100, withWeight=True, allowPOS=())

    # 做一步筛选
    word_num_selected = []

    # 筛选掉停用词
    for i in word_num:
        if i[0] not in stop_words:
            word_num_selected.append(i)
        else:
            pass

    return word_num_selected


if __name__ == '__main__':
    data = pd.read_csv('./wusha_finall.csv')
    data.info()
    # 星级转换
    data['星级'] = data.推荐星级.map(lambda x:transform_star(x))
    # 转换日期类型
    data['评论时间'] = pd.to_datetime(data.评论时间)
    # 提取日期
    data['日期'] = data.评论时间.dt.date
    key_words = get_comment_word(data)
    key_words = pd.DataFrame(key_words, columns=['words', 'num'])
    key_words.head()

    #词云
    word = WordCloud(init_opts=opts.InitOpts(width='1350px', height='750px'))
    word.add("", [*zip(key_words.words, key_words.num)], word_size_range=[20, 200])
    word.set_global_opts(title_opts=opts.TitleOpts(title="误杀电影评论词云图"),
                         toolbox_opts=opts.ToolboxOpts())
    word.render('误杀电影评论词云图.html')

   # 评分分布

   # 总体评分百分比
    score_perc = data.星级.value_counts() / data.星级.value_counts().sum()
    score_perc = np.round(score_perc*100, 2)


    # 绘制柱形图
    pie1 = Pie(init_opts=opts.InitOpts(width='1350px', height='750px'))
    pie1.add("", [*zip(score_perc.index, score_perc.values)], radius=["40%", "75%"])
    pie1.set_global_opts(title_opts=opts.TitleOpts(title='总体评分分布'),
                     legend_opts=opts.LegendOpts(orient="vertical", pos_top="15%", pos_left="2%"),
                     toolbox_opts=opts.ToolboxOpts())
    pie1.set_series_opts(label_opts=opts.LabelOpts(formatter="{c}%"))
    pie1.render('总体评分分布.html')


    # 评论者分布
    city_num = data.城市处理.value_counts()[:15]
    city_num.drop('未知', inplace=True)

    c1 = Geo(init_opts=opts.InitOpts(width='1350px', height='750px'))
    c1.add_schema(maptype='china')
    c1.add('geo', [list(z) for z in zip(city_num.index, city_num.values.astype('str'))], type_=ChartType.EFFECT_SCATTER)
    c1.set_series_opts(label_opts=opts.LabelOpts(is_show=False))
    c1.set_global_opts(visualmap_opts=opts.VisualMapOpts(),
                       title_opts=opts.TitleOpts(title='评论者城市分布'),
                       toolbox_opts=opts.ToolboxOpts())
    c1.render('评论者城市分布地图.html')

    # 最多评论所在城市条形图
    # 国内城市top10
    city_top10 = data.城市处理.value_counts()[:12]
    city_top10.drop('未知', inplace=True)

    # 条形图
    bar1 = Bar(init_opts=opts.InitOpts(width='1350px', height='750px'))
    bar1.add_xaxis(city_top10.index.tolist())
    bar1.add_yaxis("城市", city_top10.values.tolist())
    bar1.set_global_opts(title_opts=opts.TitleOpts(title="评论者Top10城市分布"), toolbox_opts=opts.ToolboxOpts())
    bar1.render('评论者Top10城市分布条形图.html')


    # 评论时间趋势
    # 时间排序
    time = data.日期.value_counts()
    time.sort_index(inplace=True)

    # 绘制时间走势图
    line1 = Line(init_opts=opts.InitOpts(width='1350px', height='750px'))
    line1.add_xaxis(time.index.tolist())
    line1.add_yaxis('评论热度', time.values.tolist(), areastyle_opts=opts.AreaStyleOpts(opacity=0.5),
                    label_opts=opts.LabelOpts(is_show=False))
    line1.set_global_opts(title_opts=opts.TitleOpts(title="时间走势图"), toolbox_opts=opts.ToolboxOpts())
    line1.render('评论时间走势图.html')

结果:

词云:

 

总体评分

评论者城市分布:

 

评论者地图分布

 

时间走势:

### 变量声明与初始化练习 #### 一次声明多个变量 ```java public class VariablePractice { public static void main(String[] args) { // 一次声明多个整型变量 int a, b, c; // 一次声明多个不同类型的变量 String movieName, leadActor; int releaseYear; double movieScore; } } ``` #### 直接初始化和先声明后初始化变量 ```java public class VariablePractice { public static void main(String[] args) { // 直接初始化 int g = 20; String movieName = "误杀3"; // 先声明后初始化 int h; h = g + 10; String leadActor; leadActor = "肖央、谭卓"; int releaseYear; releaseYear = 2023; double movieScore; movieScore = 7.5; // 输出h的值 System.out.println("h的值为: " + h); } } ``` #### 整型变量运算及自增 ```java public class VariablePractice { public static void main(String[] args) { int g = 20; int h = g + 10; System.out.println("h的值为: " + h); // g自增10 g += 10; System.out.println("g自增10后的值为: " + g); } } ``` #### 声明正确和错误变量名 ```java public class VariablePractice { public static void main(String[] args) { // 正确的变量名 int validVariable1 = 10; String _validVariable2 = "Hello"; double validVariable3_ = 3.14; // 错误的变量名 // int 1invalidVariable; // 不能以数字开头 // int -invalidVariable; // 不能使用除下划线和美元符号外的特殊符号 // int class; // 不能使用Java关键字 } } ``` #### 存储电影信息并打印 ```java public class MovieInfo { public static void main(String[] args) { String movieName = "误杀3"; String leadActor = "肖央、谭卓"; int releaseYear = 2023; double movieScore = 7.5; System.out.println("电影名称: " + movieName); System.out.println("主演: " + leadActor); System.out.println("年份: " + releaseYear); System.out.println("评分: " + movieScore); } } ```
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值