预测内容是否会走红
1. 数据准备与分析目标
在数据准备就绪后,我们可以开始进行分析,目标是找出使内容易于分享的因素。我们收集了过去一年中约500篇分享量最高的内容,接下来将对这些文章进行拆解,以找出它们的共同特征。
2. 探索可分享性的特征
2.1 探索图像数据
- 图像数量统计 :
首先查看每篇故事中包含的图像数量,运行值计数并绘制图表。
python dfc['img_count'].value_counts().to_frame('count')
然后绘制图像数量频率图:
python fig, ax = plt.subplots(figsize=(8,6)) y = dfc['img_count'].value_counts().sort_index() x = y.sort_index().index plt.bar(x, y, color='k', align='center') plt.title('Image Count Frequency', fontsize=16, y=1.01) ax.set_xlim(-.5,5.5) ax.set_ylabel('Count') ax.set_xlabel('Number of Images')
结果显示,绝大多数故事包含五张图片,而只有一张或更少图片的情况非常罕见,这表明人们倾向于分享包含大量图像的内容。 - 图像颜色分析 :
查看图像中最常见的颜色,首先统计十六进制
超级会员免费看
订阅专栏 解锁全文
1196

被折叠的 条评论
为什么被折叠?



