探索内容可分享性的秘密
在当今信息爆炸的时代,了解什么样的内容更容易被分享是非常有价值的。本文将通过一系列的数据探索和分析,揭示内容可分享性的特征,并构建一个预测模型来评估内容的分享潜力。
1. 数据获取与准备
在开始探索哪些特征使内容具有可分享性之前,我们需要获取大量的内容以及其被分享的频率数据。然而,近年来获取此类数据变得更加困难。幸运的是,我们有一个从已停用的网站 ruzzit.com 收集的数据集。
以下是加载数据的代码:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
dfc = pd.read_json('viral_dataset.json')
dfc.reset_index(drop=True, inplace=True)
dfc
接下来,我们查看数据集的列名,以了解我们要处理的数据:
dfc.columns
各列的含义如下:
| 列名 | 含义 |
| ---- | ---- |
| title | 文章标题 |
| link | ruzzit.com 链接 |
| bb | Facebook 点赞数 |
| lnkdn | LinkedIn 分享数 |
| pins | Pinterest 固定数 |
超级会员免费看
订阅专栏 解锁全文
170万+

被折叠的 条评论
为什么被折叠?



