利用R进行预测分析的全面指南
1. 预测分析概述
随着时间的推移,全球数据量呈指数级增长。据估计,2020年产生的总数据量将达到20泽字节(200亿TB)。尽管各组织投入大量精力和资金来收集和存储数据,但大部分数据并未得到充分分析。分析数据的一个重要原因是预测未来,即生成可操作的知识。
预测是指基于已证实的指标(预测因子)与结果之间的可靠关系,通过相似案例中指标的存在(或水平)来推断未来结果的存在(或水平)。以下是一些常见的关系示例:
- 个子高的人通常体重更重。
- 富有的人消费更多。
- 更聪明的人收入更高。
- 细分市场X中的客户更倾向于购买产品Y。
- 购买了产品P的客户也可能购买产品Q。
- 产品P和Q经常一起被购买。
- 某些信用卡交易可能预示着欺诈行为。
- Google搜索查询可以预测流感感染情况。
- 推文内容能够预测选举民意调查结果。
2. 学习算法分类
在预测分析中,主要涉及两种类型的算法:无监督学习算法和有监督学习算法。
2.1 无监督学习
无监督学习算法旨在寻找组织未标记数据的结构。例如,基于观察值之间的相似性或距离,无监督聚类分析可以确定数据组,并将观察值分配到最合适的组中。文档分类就是无监督学习的一个应用场景。
2.2 有监督学习
有监督学习中,我们已知某些观察值的目标属性的类别或水平。在进行预测时,我们利用标记数据(已知目标属性类别或水平的数据)中的已知关系,来预测新案例(未知目标属性值)的目标属性类别或水平。
预测建模主要处理两
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



