任务描述
根据附件文件对酒店评价数据进行分析,本题使用jieba库中的lcut函数对数据进行分词。
import jiebatest_str = '武汉理工大学是一所世人仰慕的大学'`result = jieba.lcut(test_str) # 参数是字符串,结果是将字符串切分为词的列表 `print(result) # ['武汉理工大学', '是', '一所', '世人', '仰慕', '的', '大学']
文件数据每行包括评论属性和评论内容两个数据,其中评论属性中’1‘代表好评,’0‘代表差评。
要求实现以下功能:
文件编码格式为GBK,读取函数示例如下:
with open('comment.csv', 'r', encoding='GBK') as f:ls=[i.strip().split(',',maxsplit=1) for i in f.readlines()[1:]]
输入n
如果n为’总评‘,分别输出该文件评论总数,好评条数,差评条数,输出格式参照示例一。
如果n为’平均‘,输出该文件中所有评论内容的平均长度(不需要排除字母,标点符号和数字),输出四舍五入后的整数,输出格式参照示例二。
如果n为’好评‘,对文件中所有好评进行词频分析,并输出词频出现最多的前15个词以及出现次数,输出格式参照示例三
如果n为’差评‘,对文件中所有差评进行词频分析,并输出词频出现最多的前15个词以及出现次数,输出格式参照示例四
注:3,4两项功能中统计的词语,要求长度不小于2,不是数字组成,并且不是排除词.
排除词 ex=['不错','比较','可以'

最低0.47元/天 解锁文章
5571

被折叠的 条评论
为什么被折叠?



