机器学习与线性回归预测分析入门
机器学习基础
在机器学习中,我们常常会用到一种从训练数据集中抽取样本构建模型的方法。具体来说,就是从训练数据集中抽取 X 个自助法样本,然后在每个样本上构建模型 M。对于最终的预测,在回归问题中,我们会对所有预测结果取平均值;而在分类问题中,则采用多数投票的方式来确定最终结果。
决策树虽然易于解释,但与其他标准的分类或回归方法相比,其预测准确性的稳定性欠佳。不过,通过聚合决策树可以提高其预测准确性,随机森林就是这样一种方法。随机森林由 Breiman 在 2001 年首次提出,它类似于装袋树,都是在训练数据集的多个自助法样本上构建决策树,然后通过平均预测结果或多数投票得到最终预测。不同的是,在构建每棵树时,并非使用数据集中的所有预测变量 N,而是随机选取 P 个预测变量,通常 P 约为 $\sqrt{N}$。
机器学习可分为监督学习和无监督学习。监督学习是有目标或响应变量的学习方式,而无监督学习则不同,它没有每个自变量对应的目标或响应变量。例如,客户细分问题就属于无监督学习的范畴。营销经理想要了解哪些客户可能会购买新产品,会基于客户的人口统计特征、购买行为等特征进行分析。
无监督学习的一个重要方法是聚类分析,此外,主成分分析和市场篮子分析也属于无监督学习技术。
聚类分析
聚类的基本思想是将原始数据或观察值划分为不同的组,使得组内的观察值彼此相似,即具有同质性,而不同组之间具有明显的特征差异。对于前面提到的客户细分问题,营销经理可以将客户分成不同的聚类,并根据各种特征对他们进行分析,从而更好地了解客户,通过营销活动或广告精准定位相关客户。
聚类方法主要分为两类:
超级会员免费看
订阅专栏 解锁全文
5万+

被折叠的 条评论
为什么被折叠?



