数据挖掘 概述
第一章 数据挖掘介绍
-
哪些算法是有监督学习,无监督学习,各自特点?
答案:有监督分为分类和回归两类,无监督学习主要为聚类和降维
算法名称 算法类型 特点 决策树Decision Tree 有监督既可作分类也可做回归 决策树的结果容易理解和解释,因为它们模仿了人类的决策过程,使用类似于流程图的树状结构 逻辑回归Logistic Regression 线性有监督分类 逻辑回归是一种简单且计算高效的分类算法,主要用于二分类问题,输出结果可解释性强,表现为概率形式。它基于线性组合的特征通过Sigmoid函数映射到0到1之间,适合处理线性可分数据,但在处理非线性关系时效果不佳。 支持向量机(SVM) 有监督 最大化间隔:SVM寻找分类边界(超平面)以最大化不同类别之间的距离。 非线性映射:通过核技巧处理非线性可分数据,映射到高维空间进行分类。 K-meansK近邻算法 聚类无监督 是一种迭代的聚类算法,通过最小化簇内成员与簇中心的距离平方和来形成k个簇,适用于球形、大小相似的簇,需预先指定簇的数量k。 DBSCAN 聚类无监督 基于密度的聚类算法,自动发现任意形状的簇,通过测量点的密度来确定核心点和边界点,能识别并排除噪声点,无需预设簇的数量 PCA主成分分析 降维 通过线性变换将高维数据投影到低维空间,同时保留数据的大部分方差,生成的主成分彼此正交,减少计算复杂度和冗余。 。。。 -
“过拟合”是什么意思?
答案:过拟合指模型在训练数据上表现优异,但在新数据上性能下降的现象,因模型学习了训练数据的噪声而非普遍规律。
-
正则化是什么意思?目的是什么?
答案:正则化是在数据挖掘中通过在损失函数中添加惩罚项来防止模型过拟合的技术,旨在提升模型的泛化能力,确保模型在未见数据上的表现。它通过限制模型的复杂度来达成这一目标,常见的方法有L1和L2正则化。 举个例子:想象你在教一个小孩子识别苹果和橙子。开始时,你只给他看非常典型的苹果和橙子——红红圆圆的苹果,橙色光滑的橙子。小孩很快就学会了区分它们。但是,如果每次你给他的苹果都是红色的,他可能会认为所有红色的东西都是苹果。这就是过拟合——模型(小孩)对训练数据(你给他的苹果和橙子)过度适应,以至于无法正确处理新情况(比如黄色的苹果或橙色的胡萝卜)。
正则化就像是告诉小孩:“不要只是记住这些苹果的样子,要学习它们更本质的特征。”这样,即使遇到不同颜色或形状的苹果,小孩也能识别出来。同样,正则化使模型关注数据的普遍规律,而不仅仅是记忆训练数据的细节,从而提高其对新数据的适应能力。
第二章 回归分析
-
哪些算法属于回归,各自的特点已经应用场景
**答案:**回归算法主要用于预测连续数值型的目标变量,以下是一些常见的回归算法及其特点和应用场景:
- 线性回归(Linear Regression)
- 特点:假设自变量和目标变量间存在线性关系,通过最小化预测值与真实值间的平方误差来拟合最佳直线。y=kx+b
- 应用场景:预测房价、销售量预测、经济增长预测等。
- 岭回归(Ridge Regression)
- 特点:线性回归的变种,引入了L2正则化,有助于解决多重共线性和过拟合问题。
- 应用场景:基因表达数据中的基因选择,具有大量特征的数据集。
- Lasso回归(Least Absolute Shrinkage and Selection Operator)
- 特点:线性回归的另一种变种,引入了L1正则化,可以将一些不重要的特征的权重压缩至零,实现特征选择。
- 应用场景:特征选择,特别是在特征数量远大于样本数量的情况下。
- 弹性网络回归(Elastic Net Regression)
- 特点:结合了L1和L2正则化,既能处理多重共线性,又能进行特征选择。
- 应用场景:高维数据的回归分析,例如基因组学研究。
- 决策树回归(Decision Tree Regression)
- 特点:使用树结构进行预测,通过分割数据空间来逼近目标变量。
- 应用场景:预测电力消耗、医疗费用预测。
- 随机森林回归(Random Forest Regression)
- 特点:集合多个决策树的预测,减少过拟合,提高预测稳定性。
- 应用场景:金融风险评估、天气预报。
- 梯度提升回归树(Gradient Boosting Regression Trees, GBRT)
- 特点:通过逐步添加弱预测模型(通常是决策树)来改进预测,减少偏差。
- 应用场景:预测股票市场波动、用户行为预测。
- 支持向量回归(Support Vector Regression, SVR)
- 特点:基于支持向量机原理,寻找一个最优的边界来最大化数据点与边界之间的距离。
- 应用场景:时间序列预测、化学物质属性预测。
- 线性回归(Linear Regression)
-
回归问题的应用场景,作用以及评价指标(R^2、回归误差)
-
决定系数(Coefficient of Determination, R²)
-
定义:模型预测值与真实值相关性的度量,表示模型解释了数据中多少变异。
-
解释:R² 取值范围在 -∞ 到 1 之间,越接近 1 表示模型拟合得越好。
-
公式:
R 2 = 1 − ∑ i = 1 n ( y i − y ^ i ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 R^2 = 1 - \frac{\sum_{i=1}^{n}(y_i - \hat{y}_i)^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2} R2=1−∑i=1n(yi−yˉ)2∑i=1n(y
-
-