数据挖掘——分类
分类:有监督的学习
聚类:无监督的学习
分类过程:使用类标签已知的样本去建立分类函数或分类模型,应用分类模型能把数据库中的类标签未知的数据进行归类。
分类二阶段:分类是过程,预测(决策变量是类标签,此处为广义预测)是目的。
分类算法:
决策树、逻辑回归、神经网络、支持向量机、贝叶斯分类、KNN(K近邻)、随机森林。
分类应用:流失预测、精确营销、客户获取、个性偏好、信用分析、欺诈预警。
应用原理:只要有类标签已知的样本,就可以拿该样本训练,找一个对照组,建立分类模型,类标签未知的数据进行归类、预测。
分类算法一:决策树——划分子结点、回溯到根结点
决策树是描述分类过程的一种数据结构,从上端的根节点开始,每一层节点依照某一属性值向下分为子节点,待分类的实例在每一节点处与该节点相关的属性值进行比较,根据不同的比较结果向相应的子节点扩展,这一过程在到达决策树的叶节点时结束。
从根节点到叶节点的每一条路径都对应着一条合理的规则,规则间各个部分(各个层的条件)的关系是合取关系。整个决策树就对应着一组析取规则。
决策树学习算法的最大优点是,它中以自主学习。在学习的过程中,不需要使用者了解过多背景知识,只需要对训练例子进行较好的标注,就能够进行学习。
决策树:由根节点开始,自上而下,每一层节点根据属性值分裂产生子节点,最后到叶结点终点。每一次分裂要选择属性,可以用不同属性划分时,选择划分后收益最大的属性划分 。(信息增益法、)
决策树算法:ID3 /C5.0/CHAID/QUEST/C&R TREE
决策树拓展:单决策树、组合模型--bagging/boosting(adaboost)/随机森林
决策树算法理解
决策树分析原则:信息增益、信息增益率、
ID3增益计算缺点:ID3基于信息增益,它会有偏向于属性值很多的属性,需要做一
分类:有监督的学习
聚类:无监督的学习
分类过程:使用类标签已知的样本去建立分类函数或分类模型,应用分类模型能把数据库中的类标签未知的数据进行归类。
分类二阶段:分类是过程,预测(决策变量是类标签,此处为广义预测)是目的。
分类算法:
决策树、逻辑回归、神经网络、支持向量机、贝叶斯分类、KNN(K近邻)、随机森林。
分类应用:流失预测、精确营销、客户获取、个性偏好、信用分析、欺诈预警。
应用原理:只要有类标签已知的样本,就可以拿该样本训练,找一个对照组,建立分类模型,类标签未知的数据进行归类、预测。
分类算法一:决策树——划分子结点、回溯到根结点
决策树是描述分类过程的一种数据结构,从上端的根节点开始,每一层节点依照某一属性值向下分为子节点,待分类的实例在每一节点处与该节点相关的属性值进行比较,根据不同的比较结果向相应的子节点扩展,这一过程在到达决策树的叶节点时结束。
从根节点到叶节点的每一条路径都对应着一条合理的规则,规则间各个部分(各个层的条件)的关系是合取关系。整个决策树就对应着一组析取规则。
决策树学习算法的最大优点是,它中以自主学习。在学习的过程中,不需要使用者了解过多背景知识,只需要对训练例子进行较好的标注,就能够进行学习。
决策树:由根节点开始,自上而下,每一层节点根据属性值分裂产生子节点,最后到叶结点终点。每一次分裂要选择属性,可以用不同属性划分时,选择划分后收益最大的属性划分 。(信息增益法、)
决策树算法:ID3 /C5.0/CHAID/QUEST/C&R TREE
决策树拓展:单决策树、组合模型--bagging/boosting(adaboost)/随机森林
决策树算法理解
决策树分析原则:信息增益、信息增益率、
ID3增益计算缺点:ID3基于信息增益,它会有偏向于属性值很多的属性,需要做一