啦啦啦啦啦我又嚟啦~
今日讲下数据挖掘常见嘅技术以及应用,并不全面,大家求其睇下就好啦哈哈哈。
数据挖掘技术,在实际的应用中,主要就体现在4个方面:分类与回归,聚类,关联规则和时序模式。

分类与回归
建模原理:
分类(classification)
指的是将数据映射到预先定义好的群组或类,所以,通常分类也被称为有监督的学习。
分类算法要求基于数据属性值来定义类别,通常通过已知所属类别的数据的特征来描述类别。(贼拗口。。。)分类就是构造一个分类模型,通常分为2步:
模型创建:通过对训练数据集的学习来建立分类模型。
模型使用:使用分类模型对测试数据和新的数据进行分类。
回归(regression)
指的是用属性的历史数据预测未来趋势。
回归是假设一些已知类型的函数(如线性函数,logistic函数等)可以拟合目标数据,然后利用某种误差分析确定一个与目标数据拟合程度最好的函数。
常见算法:
我按照“算法名称:算法描述”的格式来进行描述呗~
1)BP(back propagation,反向传播):一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。
2)LM(levenberg-marquardt,列文伯格):基于梯度下降法和牛顿法结合的优化算法,特点是迭代次数少,收敛速度快,精确度高。
3)FNN(fuzzy neural network,模糊神经网络):具有模糊权系数或者输入信号是模糊量的神经网络,是模糊系统与神经网络相结合的产物,汇聚了神经网络与模糊系统的优点。
4)RBF(radial basis function,径向基函数):具有单隐层的三层前馈网络,是一种局部逼近网络,能以任意精度逼近任意连续函数,特别适合于解决分类问题。
5)ANFIS(adaptive neural fuzzy inference system,自适应神经模糊推理系统):功能上与一阶T-S模糊推理系统等价的自适应网络,是将神经网络的学习机制引进模糊系统,构成一个带有人类感觉和认知成分的自适应系统。
6)WNN(wavelet neural network,小波神经网络):基于小波变换而构成的神经网络模型,即用非线性小波基取代通常的神经元非线性激励函数,把小波变换与神经网络有机地结合起来。
7)SVM(support vector machine,支持向量机):机器学习算法,在解决小样本,非线性及高维模式识别问题中表现出特有的优势。
8)CART(classification and regression tree,分类与回归树):一种十分有效的非参数分类和回归的方法,通过构建树,评估树来构建一个二叉树。
聚类
建模原理:
聚类(clustering)分析指的是在没有给定划分类的情况下,根据信息相似度进行信息聚类的一种方法,因此聚类为无监督学习。
聚类的输入是一组未被标记的数据,根据数据自身的距离或者是相似度进行划分。划分的原则是保持组内相似度最大,组间相似度最小。
常见算法:
这里我按照“类别:主要算法”的格式来进行描述~
1)划分(分裂)方法:k-means,k-meddoids(中心点),CLARANS(基于选择的算法)
2)层次方法:BIRCH(平衡迭代规约和聚类),CURE(代表点聚类),CHAMELEON(动态模型)
3)基于密度的方法:DBSCAN(基于高密度连接区域),DENCLUE(密度分布函数),OPTICS(对象排序识别)
4)基于网络的方法:STING(统计信息网络),CLIOUE(聚类高维空间),WAVE-CLUSTER(小波变换)
5)基于模型的方法:统计学方法,神经网络方法

关联规则
建模原理:
关联规则(association)揭示数据之间的相互作用,任务在于发现事物之间的关联规则或相关程度。
常见算法:
1)Apriori算法:一种最有影响的挖掘布尔关联规则频繁项集的算法,其核心是基于两阶段频集思想的递推算法。
2)FP-Tree算法:针对Apriori算法的固有缺陷而提出的不产生候选挖掘频繁项集的算法。
3)灰色关联法:以分析和确定各因素之间的影响程度或若干子因素对主因素的贡献程度而进行的一种分析方法。
4)HotSpot算法:挖掘得到通过树状结构显示的感兴趣的目标最大化/最小化的一套规则。

时序模式
模式原理:
指的是基于时间或其他序列的经常发生的规律或趋势,并对其建模,其实和回归差不多,就是把重点放在了时间维度上,时序模式包括时间序列分析和序列发现。
组合成分及模型:
时间序列的变化主要受到长期趋势T,季节变动S,周期变动C和不规则变动I这4个因素的影响。
故时间序列y可以表示为y=f(T,S,C,I),较为常用的是加法和乘法模型。
时序的算法:
我按照“方法:时间范围,使用情况”来进行描述~
1)一元线性回归预测法:短中期,自变量和因变量之间存在线性关系。
2)多元线性回归预测法:短中期,因变量与两个或以上自变量之间存在线性关系。
3)非线性回归预测法:短中期,因变量与一个自变量或多个自变量之间存在某种非线性关系。
4)趋势外推法:中长期,当被预测项目的有关变量用时间表示时,用非线性回归。
5)移动平均法:短期,不带季节变动的反复预测。
6)指数平滑法:短期,具有或不具有季节变动的反复预测。
7)平稳时间序列预测法:短期,适用于任何序列的发展型态的一种高级预测方法。
8)灰色预测法:短中期,适用于时间序列的发展呈指数型趋势的。

以上内容,均来自《数据挖掘-实用案例分析》张良均著。
”欢迎关注,嘻嘻~”
本文介绍了数据挖掘中的四个关键领域:分类与回归,聚类,关联规则和时序模式。分类是将数据映射到预定义的类别,回归用于预测未来趋势。常见的分类算法包括BP、LM、FNN、RBF等;聚类算法有k-means、层次方法、基于密度的方法等;关联规则涉及Apriori、FP-Tree等算法;时序模式则关注时间序列变化的规律。
2327

被折叠的 条评论
为什么被折叠?



