在天池下载了豆瓣电影评分的数据集,打算看看电影类型分布情况,思路是将所有的类分成一张表,然后遍历每一条记录,如果出现某一类型的文字,例如出现“爱情”类型,就在爱情字段对应的位置将0变成1,最后按字段求和得到每种类型的数量。
在这个过程中遇到几个问题,在这里记录一下
flatten函数
由于数据集保存电影类型的格式整理后是list[[],[],…],所以我要遍历list里面每一个[],来获得所有的类型,并且不重样(这里直接用set函数去重),但是直接用flatten函数会报错,所以要用循环遍历去重的方法,代码如下:
# 报错情况:
------------------------------------------------------