预测内容是否会走红
1. 数据获取与准备
在探索哪些特征使内容易于分享之前,需要获取大量内容以及其被分享的频率数据。近年来,获取此类数据变得更加困难,如今几乎没有免费的数据源,不过付费仍可找到。这里使用的是从已停用的网站 ruzzit.com 收集的数据集。
以下是加载数据的代码:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
dfc = pd.read_json('viral_dataset.json')
dfc.reset_index(drop=True, inplace=True)
dfc
数据集的列及其含义如下:
| 列名 | 含义 |
| ---- | ---- |
| title | 文章标题 |
| link | ruzzit.com 链接 |
| bb | Facebook 点赞数 |
| lnkdn | LinkedIn 分享数 |
| pins | Pinterest 固定数 |
| date | 文章日期 |
| redirect | 原始文章链接 |
| pg_missing | 页面是否可用的字段 |
| img_link | 文章图片链接 |
| json_data | 文章的额外数据 |
| site | 文章托管的域名 |
| img_count | 文章包含的图片数量 |
超级会员免费看
订阅专栏 解锁全文
1196

被折叠的 条评论
为什么被折叠?



