使用 R 进行预测分析的入门指南
1. 预测分析简介
在当今数据爆炸的时代,数据量正呈指数级增长。据估计,到 2020 年,全球产生的数据总量将达到 20 泽字节(200 亿太字节)。众多组织投入大量精力和资金来收集和存储数据,但大部分数据并未得到有效分析。分析数据的一个重要目的是预测未来,从而产生可付诸行动的知识。
1.1 预测的概念
预测的含义因领域和所使用的算法而异。通常情况下,如果指标(预测因子)与结果之间存在可靠的关系,那么在类似情况下,这些指标的存在(或水平)可以作为预测未来结果存在(或水平)的可靠线索。以下是一些常见的关系示例:
- 个子高的人通常体重更重。
- 富有的人消费更多。
- 更聪明的人收入更高。
- X 细分市场的客户更倾向于购买产品 Y。
- 购买了产品 P 的客户也可能购买产品 Q。
- 产品 P 和 Q 经常一起被购买。
- 某些信用卡交易可能预示着欺诈行为。
- 谷歌搜索查询可以预测流感感染情况。
- 推文内容可以预测选举民意调查结果。
1.2 监督学习与无监督学习
在预测分析中,主要涉及两种算法家族:
- 无监督学习算法 :这类算法旨在寻找未标记数据的组织结构。例如,基于观察值之间的相似性或距离,无监督聚类分析可以确定数据组,并将每个观察值分配到最合适的组中。文档分类就是无监督学习的一个应用场景。
- 监督学习算法 :在监督学习中,我们已知某些观察值的目标属性的类别或水平。在进行预测时,我们利用标记数据(即已知目标
超级会员免费看
订阅专栏 解锁全文
1395

被折叠的 条评论
为什么被折叠?



