预测内容是否会走红
1. 数据获取与准备
在探索哪些特征使内容易于分享之前,我们需要获取大量内容以及其被分享的频率数据。近年来,获取此类数据变得更加困难,但我们有一个从已停用的网站 ruzzit.com 收集的数据集。
首先,我们将必要的库导入到笔记本中,并加载数据,数据以 JSON 文件的形式存在:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
dfc = pd.read_json('viral_dataset.json')
dfc.reset_index(drop=True, inplace=True)
dfc
接下来,我们查看数据集的列,以了解我们要处理的数据:
dfc.columns
各列代表的含义如下:
| 列名 | 含义 |
| — | — |
| title | 文章标题 |
| link | ruzzit.com 链接 |
| fb | Facebook 点赞数 |
| lnkdn | LinkedIn 分享数 |
| pins | Pinterest 固定数 |
| date | 文章日期 |
| redirect | 原始文章链接 |
| pg_missing | 页面是否可用的字段 |
| img_li
预测内容走红的模型与优化
超级会员免费看
订阅专栏 解锁全文
12

被折叠的 条评论
为什么被折叠?



