1. 聚类算法
聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。
聚类分析的算法可以分为:
- 划分法(Partitioning Methods)
- 层次法(Hierarchical Methods)
- 基于密度的方法(density-based methods)
- 基于网格的方法(grid-based methods)
- 基于模型的方法(Model-Based Methods)
K-Means
k-means 算法接受输入量 k ;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。
K-Means 算法的工作过程说明如下:
- 首先从n个数据对象任意选择 k 个对象作为初始聚类中心;
- 而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;
- 然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);
- 不断重复这一过程直到标准测度函数开始收敛为止。
一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
K-Means优点:
- 该算法简单、快捷、原理利于理解
- 对处理大数据集,该算法相对是可伸缩和高效率的,算法时间复杂度o(ntk),n所有对象数目,k类数目,t迭代次数
- 数据集满足球状或团状密集时,聚类效果好
K-Means缺点:
- 需要对数据特点有一定的了解,事先要先确定聚类的数目k
- 容易局部收敛,难以全局最优
- 初始聚类中心对聚类结果影响大
- 只能发现球状簇,其他形状难以发现
- 噪声数据对聚类结果影响比较大
2. 随机森林
随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。
要说随机森林,必须先讲决策树。决策树是一种基本的分类器,一般是将特征分为两类。构建好的决策树呈树形结构,可以认为是if-then规则的集合,主要优点是模型具有可读性,分类速度快。
数据的随机选取:
- 首先,从原始的数据集中采取有放回的抽样,构造子数据集,子数据集的数据量是和原始数据集相同的。不同子数据集的元素可以重复,同一个子数据集中的元素也可以重复。
- 第二,利用子数据集来构建子决策树,将这个数据放到每个子决策树中,每个子决策树输出一个结果。
- 最后,如果有了新的数据需要通过随机森林得到分类结果,就可以通过对子决策树的判断结果的投票,得到随机森林的输出结果了。
待选特征的随机选取:
- 与数据集的随机选取类似,随机森林中的子树的每一个分裂过程并未用到所有的待选特征,而是从所有的待选特征中随机选取一定的特征,
- 之后再在随机选取的特征中选取最优的特征。这样能够使得随机森林中的决策树都能够彼此不同,提升系统的多样性,从而提升分类性能。
随机森林的优点:
- 对于多种数据,可以产生高准确度的分类器
- 在建造森林时,可以在内部对于一般化后的误差产生不偏差的估计
随机森林的缺点:
- 随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟
- 对于有不同取值的属性的数据,取值划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产出的属性权值是不可信的。
3. 神经网络
人工神经网络(Artificial NeuralNetworks,简写为ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
以网络学习的准则应该是:如果网络作出错误的的判决,则通过网络的学习,应使得网络减少下次犯同样错误的可能性。首先,给网络的各连接权值赋予(0,1)区间内的随机值,将“A”所对应的图象模式输入给网络,网络将输入模式加权求和、与门限比较、再进行非线性运算,得到网络的输出。在此情况下,网络输出为“1”和“0”的概率各为50%,也就是说是完全随机的。这时如果输出为“1”(结果正确),则使连接权值增大,以便使网络再次遇到“A”模式输入时,仍然能作出正确的判断。
神经网络的优点:
- 适用于分类和数值预测问题
- 属于最精确的建模方法
- 要求对问题的了解较少
- 使用高速并行处理的系统来实现
神经网络的缺点:
- 计算量大,训练缓慢(特别是在网络拓扑结构复杂的情况下)
- 很容易过度拟合或者不充分拟合训练数据
- 如果不是不可能,复杂黑箱模型的结果很难解释
4. 贝叶斯
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立。
朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。
朴素贝叶斯的优点:
- 简单、快速、有效
- 能处理好噪声数据和缺失的数据
- 需要用来训练的例子相对较少,但同样能处理好大量的例子
- 很容易获取一个预测的估计概率值
朴素贝叶斯的缺点:
- 依赖一个常用的错误假设,一样的重要性和独立特征
- 应用在含有大量数值特征的数据集时并不理想
- 概率的估计值相对于预测的类而言更加不可靠