
数据挖掘导论
文章平均质量分 61
DMU_lzq1996
这个作者很懒,什么都没留下…
展开
-
一 数据挖掘绪论
1.1 什么是数据挖掘数据挖掘是 在大型数据库中,自动地发现有用信息的过程(信息发现任务)。数据挖掘与知识发现:数据挖掘是知识发现KDD不可缺少的一部分。1.2 数据挖掘要解决的问题可伸缩性(算法角度)高维性(数据)异种数据和复杂数据(数据)数据的所有权与分步(分布式数据挖掘)非传统分析(非假设检验)1.3 数据挖掘的起源挖掘思想和支持技术1.4 数据挖掘的任务预测任...原创 2018-11-09 17:00:36 · 356 阅读 · 0 评论 -
五 分类 其它分类技术5
5.5 支持向量机SVM5.5.1 最大边缘超平面结构风险最小化理论:给出了线性分类器边缘与其泛化误差之间关系的形式化解释5.5.2 线性支持向量机:可分情况1.线性决策边界wx+b=02.线性分类器的边缘3.学习线性SVM模型拉格朗日乘子法;KKT条件(支持向量);对偶拉格朗日函数5.5.3 线性支持向量机:不可分情况软边缘,学习允许一定训练错误的决策边界在优化问题的约...原创 2018-11-19 16:12:06 · 569 阅读 · 0 评论 -
六 关联分析 基本概念和算法3
6.6 FP增长算法6.6.1 FP树表示法6.6.2 FP增长算法的频繁项集产生6.7 关联模式的评估客观兴趣度度量:支持度;置信度和相关性等主管论据度量:6.7.1兴趣度的客观度量提升度:规则置信度和规则后件中项集的支持度之间的比率二元变量,提升度等价于兴趣因子:相关分析:连续变量:皮尔森相关系数二元变量:IS度量其他客观兴趣度度量2.客观度量...原创 2018-11-22 21:10:33 · 365 阅读 · 0 评论 -
五 分类:其他技术3
5.2 最近邻分类器5.2.1 算法K-最最近邻分类算法得到最近邻列表,测试样例根据最近邻中的多数类进行分类:为了降低算法对于k值的敏感度,使用距离加权表决:5.2.2 最近邻分类器的特征局部分类决策;不需要建立模型;任意形状的决策边界5.3 贝叶斯分类器对属性集和类变量的概率关系建模的方法5.3.1 贝叶斯定理5.3.2 贝叶斯定理在分类中的应用5.3.3 朴素贝...原创 2018-11-17 19:00:11 · 321 阅读 · 0 评论 -
五 分类 其他分类技术6
5.6 组合方法5.6.1 组合方法基本原理组合分类器性能优于单个分类器必须满足:(1)基分类器之间互相独立(2)基分类器应当好于随机猜测分类器5.6.2 构造组合分类器的方法构造组合分类器的几种方法:1.处理训练数据集,对原始数据进行再抽样来得到多个训练集。袋装和提升2.处理输入特征,随机森林3.处理类标号,错误-纠正输出编码4.处理学习算法5.6.3偏倚-方差分解偏倚-...原创 2018-11-20 10:29:26 · 421 阅读 · 0 评论 -
七 关联分析:高级概念1
7.1 处理分类属性二元化分类属性7.2 处理连续属性包含连续属性的关联规则通常称为量化关联规则7.2.1 基于离散化的方法将连续属性的邻近值分组,形成有限个区间。如何确定区间宽度:考虑临近区间的每种可能分组。7.2.2 基于统计学的方法1.规则产生:频繁项集2.规则确认:当由规则覆盖的事务计算的统计量不同于未被规则覆盖的事务计算的统计量7.2.3 非离散化方法min...原创 2018-11-23 16:07:06 · 416 阅读 · 0 评论 -
八 聚类分析:基本概念和算法1
8.1 概述8.1.1 什么是聚类分析聚类分析是根据在数据中发现的描述对象及其关系,将数据对象分组。聚类分析目标是组内的对象互相之间是相似的,而不同组中的对象是不同的。聚类与分类:聚类分析可以理解为非监督分类8.1.2 不同的聚类类型层次的与划分的:簇的集合是嵌套还是非嵌套互斥的、重叠的与模糊的:模糊聚类中每一个对象相对于每个簇都有一个隶属权值完全的与部分的:是否将每一个对象都必须...原创 2018-11-26 14:35:09 · 485 阅读 · 0 评论 -
DBSCAN及簇评估
8.4 DBSCAN基于密度的聚类寻找低密度区域分离的高密度区域。8.4.1 传统的密度:基于中心的方法基于中心的方法:数据集中特定点的密度通过对该点半径之内的点计数来估计根据基于中心的密度进行点分类:点分类:稠密区域内部点(核心点)、稠密区域边缘点(边界点)、稀疏区域中的点(噪声点)8.4.2 DBSCAN算法1.时间复杂性与空间复杂性2.选择DBSCAN的参数半径参数Eps...原创 2018-12-04 20:52:11 · 3331 阅读 · 0 评论 -
基于原型的聚类
9.2 基于原型的聚类基于原型的聚类,簇是对象的集合,其中任何对象离定义该簇的原型比离定义其他簇的原型更加接近。9.2.1 模糊聚类1.模糊集合:允许对象以0和1之间的某一个隶属度属于某一个集合2.模糊簇:权值之和为1,每个簇至少包含一个非零权值点3.模糊c均值:k均值的模糊版本(fcm)计算SSE误差平方和初始化:随机初始化计算质心:最小化SSE来推导出质心:更新模糊伪划...原创 2018-12-02 19:56:39 · 1941 阅读 · 0 评论 -
八 聚类分析 基本概念与算法2
8.3 凝聚层次聚类凝聚的;分裂的8.3.1 基本凝聚层次聚类算法从个体点开始,相继合并两个最接近的簇,直到只剩一个簇。1.定义簇之间的邻近性2.时间和空间复杂度8.3.2 特殊技术1.样本数据2.单链MIN3.全链MAX或团4.组平均5.Ward方法和质心方法Ward方法:两个簇的邻近度定义为两个簇合并导致的平方误差的增量8.3.3 簇邻近度的Lance-Willia...原创 2018-11-29 10:25:39 · 459 阅读 · 0 评论 -
六 关联分析 基本概念和算法2
6.2.3 候选的产生与剪枝(1)候选项集的产生:该操作由前一次迭代发现的频繁项集(k-1)项集产生新的候选k项集(2)候选项集的剪枝:采用基于支持度的剪枝策略候选产生过程:蛮力方法:把所有k项集看作可能候选F(k-1)*F(1)方法:用其他频繁项集来扩展每一个频繁k-1项集F(k-1)*F(k-1)方法:合并一对频繁k-1项集,仅当它们的前k-2个项都相同6.2.4 支持度计...原创 2018-11-22 09:57:42 · 602 阅读 · 0 评论 -
五 分类:其他技术2
2.顺序覆盖基本原理顺序覆盖法必须删除该规则所覆盖的所有正例和反例,否则将会影响到后续规则的准确率。3.RIPPER算法为类分类分布不平衡的数据集建立模型,很好地处理噪声数据集规则增长:RIPPER算法使用从一般到特殊的策略进行规则增长,使用FOIL信息增益来选择最佳合取项添加到规则前件。建立规则集:5.1.5 规则提取的间接方法由决策树转化为分类规则规则产生:决策树从根节点到叶...原创 2018-11-15 10:50:08 · 265 阅读 · 0 评论 -
二 数据1
数据类型,数据的质量,使数据适合挖掘的预处理步骤,根据数据联系分析数据,2.1 数据类型数据集:数据对象的集合数据对象:记录,点,向量,模式,事件,案例,样本,观测,实体描述数据对象基本特性:属性,一种,字段,特征,维2.1.1 属性与度量1.属性是什么?2.属性类型;对应数值的性质3.属性的不同类型:标称,序数,区间,比率4.用值的个数描述属性:离散,连续5.非对称属性...原创 2018-11-09 17:53:34 · 298 阅读 · 0 评论 -
二 数据2
2.3数据预处理2.3.1 聚集聚集是将两个或多个对象合并成为单个对象。2.3.2 抽样抽样是选择数据对象子集进行分析的方法。1.抽样方法:简单随机抽样;分层抽样2.渐进抽样2.3.2 维规约1.维灾难2.维规约的线性代数技术2.3.4 特征子集选择嵌入方法,过滤方法,包装方法1.特征子集选择体系结构2.特征加权2.3.5 特征创建1.特征提取:创建新的特征集2....原创 2018-11-10 10:32:08 · 400 阅读 · 0 评论 -
三 探索数据
3.1鸢尾花数据集3.2 汇总统计用单个数或数的小集合捕获可能很大的值集的各种特征。3.2.1 频率和众数3.2.2 百分位数对有序数据而言3.2.3 位置度量:均值和中位数对于连续数据而言3.2.4 散布度量:极差和方差极差:方差:绝对平均方差:中位数绝对偏差:四分位数极差:3.2.5多元汇总统计协方差:衡量两个变量的线性关系连续变量的属性数据的散...原创 2018-11-10 21:03:13 · 367 阅读 · 0 评论 -
四 分类:基本概念,决策树与模型评估2
4.4模型的过分拟合分类模型的误差分类:训练误差和泛化误差过拟合:训练误差小,泛化能力弱造成过拟合的主要原因:模型复杂度4.4.1噪声导致的过分拟合由于拟合了误分类(噪声)的训练记录,导致了泛化误差增大。4.4.2缺乏代表性样本导致的过分拟合由于训练样本太少,导致分类模型虽然训练误差虽然小,但泛化误差大,出现过拟合现象。4.4.3 过分拟合与多重比较的过程在选择分类属性时,实际...原创 2018-11-13 11:39:48 · 556 阅读 · 0 评论 -
五 分类:其他技术1
5.1 基于规则的分类器概念:规则前件;规则后件;覆盖率;准确率5.1.1 基于规则的分类器的工作原理互斥规则:每条记录至多被R中的一条规则覆盖穷举规则:每条记录都至少被R中的一条规则覆盖有序规则:规则集中的规则按照优先等级排序,有序的规则集被称为决策表无序规则:把记录指派到得票最多的类5.1.2 规则的排序方案基于规则的排序方案:依据规则质量的某种度量对规则排序,确保每个记录都...原创 2018-11-14 09:28:55 · 355 阅读 · 0 评论 -
四 分类:基本概念,决策树与模型评估1
4.1预备知识元组(x,y):x指属性集合,y指分类属性目标函数又称为分类模型:描述性建模;预测性建模4.2 解决分类问题的一般方法分类技术是一种根据输入数据集建立分类模型的系统方法。学习算法确定分类模型;泛化能力模型训练集;检验集分类模型性能评估:1.正确错误计数(混淆矩阵)2.错误率,正确率4.3 决策树归纳4.3.1 决策树的工作原理决策树:根结点,内部结点(...原创 2018-11-12 10:53:30 · 983 阅读 · 0 评论 -
五 分类:其他技术4
5.4 人工神经网络ANNXOR问题5.4.1感知器学习感知器模型感知器训练阶段,就是不断调整权值参数使得输出和训练实例输出一致算法第七步:权值更新公式新权值等于旧权值加上一个正比于预测误差的项线性可分:感知器学习算法保证收敛线性不可分:算法不收敛5.4.2 多层人工神经网络复杂化感知器(1)网络输入层和输出层之间包括多个中间层,即隐藏层,隐藏结点前馈神经网络:每一层的...原创 2018-11-18 21:21:48 · 247 阅读 · 0 评论 -
五 分类 其它分类技术7
5.7 不平衡类问题例:产品质量检测,不合格产品数量远远低于合格产品的数量在例:信用卡欺诈检测,合法交易远远多于欺诈交易5.7.1 可选度量混淆矩阵及其专业术语:真正率或灵敏度:真负率或特指度:假正率:假负率:精度:确定在分类器断言为正类的那部分记录中实际为正类的记录所占的比例召回率:被分类器正确预测的正样本的比例F1度量:Fb度量:加权准确率:5....原创 2018-11-20 15:32:11 · 327 阅读 · 0 评论 -
六 关联分析:基本概念和算法1
啤酒尿布问题6.1 问题定义二元表示:项集、事务和支持度计数:包含0个或多个项的集合被称为项集,k-项集;真实存在的项集称为事务;包含特定项集的事务个数称为项集的支持度计数。关联规则:蕴含表达式X->Y关联规则的强度:支持度和置信度,支持度可以用于给定数据集的频繁程度,置信度确定Y包含X的事务中出现的频繁程度。关联规则挖掘问题的形式化描述:6.2 频繁项集的产生候选...原创 2018-11-21 09:27:23 · 394 阅读 · 0 评论 -
异常检测
10.1预备知识10.1.1异常的成因数据来源于不同的类自然变异数据测量和收集误差10.1.2 异常检测方法基于模型的技术:不能很好地拟合模型的对象,一般判别为异常基于邻近度的技术:在对象之间定义邻近性度量,原理大部分对象的一般判别为异常基于密度的技术:低密度区域中的对象相对远离近邻,被看作异常10.1.3类标号的使用异常检测有三种基本方法:非监督、监督、半监督,主要区别在于类...原创 2018-12-05 17:07:22 · 730 阅读 · 0 评论