社交媒体大数据预测分析:算法、应用与案例研究
1. 机器学习算法
在社交媒体大数据(SBD)预测分析领域,有多种机器学习算法可用于实现一定的预测准确性。决策树是其中一种重要的算法,它可以通过三种常用方法生成,即C4.5、随机森林和梯度提升。
与逻辑回归、广义线性回归和朴素贝叶斯相比,决策树更加透明,更容易解释预测特征与社会情况之间的关系。Caruana等人指出,在解决11个分类基准问题时,决策树的分类性能优于逻辑回归和支持向量机,评估中使用了十种分类指标。
-
随机森林 :随机森林是决策树的一种新版本,它尝试整合多个决策树。它是一种混合决策树,通过对多个决策树的结果进行平均来得出最终结果。每个决策树基于整个训练集的不同子集生成。随机森林模型的公式如下:
[F_{Rand}(x) = \frac{1}{N_{DT}}\sum_{i = 1}^{N_{DT}}F_{DT_i}(x)]
其中,(F_{Rand}(x))是所有(F_{DT_i}(x))((i = 1, 2, \cdots, N_{DT}))的总体平均值。所有(F_{DT_i}(x))由训练集的不同子集开发,(F_{DT_i}(x))可以通过C4.5、随机森林或梯度提升开发。随机森林试图克服单个决策树可能出现的过拟合问题。 -
梯度提升树 :可以将随机森林的混合树公式(5.4)修改为公式(5.5),其中每个决策树的权重不相等,每个决策树乘以一个不同的常数(\alpha_i)((i = 1, 2, \cdots, N_{DT}))。
[F_{GB}(x) = \fr
超级会员免费看
订阅专栏 解锁全文
1217

被折叠的 条评论
为什么被折叠?



