
R语言数据挖掘
该专栏专注于数据挖掘知识
Nelson_hehe
人生的奔跑不在于瞬间的爆发,而在于途中的坚持。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《R语言数据挖掘》读书笔记:二、频繁模式、关联规则和相关规则挖掘
第二章、频繁模式、关联规则和相关规则挖掘 关联规则挖掘算法可以从多种数据类型中发现频繁项集,包括数值数据和分类数据,基础算法有Apriori算法和FP-Growth算法。 1.关联模式和关联规则 1.1 模式和模式发现(频繁模式可以有以下几种形式) 1.1.1频繁项集 项集:项集就是项的集合,例如:{矿...原创 2019-09-24 18:36:51 · 1355 阅读 · 0 评论 -
《R语言数据挖掘》读书笔记:九、图挖掘与网络分析
第九章、图挖掘与网络分析概述:分组、短信、约会及许多其他方式是社会交往或者社交网络中经典社交行为的主要形式。所有这些概念都用图来建模,即节点、边和其他属性。图挖掘用来挖掘此类信息,类似于其他类型的信息,比如生物信息等。1.图挖掘 1.1 图 图G包含节点V和边E,图可用方程G=(V,E)表示。有两种类型的图:有向图和无向图 1.2 图挖掘算法 ...原创 2019-09-28 16:52:51 · 519 阅读 · 0 评论 -
《R语言数据挖掘》读书笔记:八、流数据分析与挖掘
第八章、流数据、时间序列数据和序列数据挖掘 流数据、时间序列、和序列数据的特征是与众不同的,即数据量大且无尽的。他们数据量太大不能获得精确的结果,这意味着将得到一个近似的结果。因此,应该扩展经典的数据挖掘算法或者为这类型数据集设计一种新的算法。1.信用卡交易数据流和STREAM算法 一种数据源总是需要多种预定义的算法或者一种全新的算法来处理。流数据的行为与传统数据集有些不同...原创 2019-09-28 15:26:26 · 532 阅读 · 0 评论 -
《R语言数据挖掘》读书笔记:七、离群点(异常值)检测
第七章、异常值检测(离群点挖掘)概述: 一般来说,异常值出现有各种原因,比如数据集因为数据来自不同的类、数据测量系统误差而收到损害。根据异常值的检测,异常值与原始数据集中的常规数据显著不同。开发了多种解决方案来检测他们,其中包括基于模型的方法(Model-based method)【也叫基于统计分布Distribution的】、基于相似度的方法(proximity-based...原创 2019-09-27 21:24:46 · 2709 阅读 · 0 评论 -
《R语言数据挖掘》读书笔记:六、高级聚类算法
第六章、高级聚类算法1. DBSCAN算法和电子商务客户分类分析 1.1DBSCAN算法 通过定义数据点空间的密度和密度度量,这些类可以建模成数据空间中具有某种密度的截面。 在有噪声的情况下基于密度的空间聚类应用算法(Density Based Spatial Clustering of Applications with Noise,DBSCAN...原创 2019-09-25 10:48:53 · 815 阅读 · 0 评论 -
《R语言数据挖掘》读书笔记:五、聚类分析
第五章、聚类分析0. 聚类算法的系统性介绍 聚类被定义为一个数据集的无监督分类。聚类算法的目的是使用距离或者概率度量对给定数据集(点集或者对象的集合)划分成数据实例或者对象(点)的组。根据距离或相似性或其他度量,同一个组中的成员比较接近。换言之,就是最大化类内(内部同质性)的相似性并最小化类间(外部异质性)的相似性。 使用聚类算法一方面是为了数据的进一步分析,另一方面是为了...原创 2019-09-25 10:38:32 · 1344 阅读 · 0 评论 -
《R语言数据挖掘》读书笔记:四、高级分类算法
第四章、高级分类算法 1. 集成方法(策略:模型平均) 为了提升分类的准确率,提出了集成方法(EM) 集成方法就是基于多个基础分类器来构建组合的分类器(每个基学习器都犯不同的错误,综合起来犯错的可能性不大) 每个基础分类器的训练过程基于不同的数据集成或者是对源是训练数据集进行又放回的抽样得到的训练数据集进行训练。 ...原创 2019-09-25 10:35:57 · 569 阅读 · 0 评论 -
《R语言数据挖掘》读书笔记:三、分类
第三章、分类1.分类(相当于构建一个分类器) 1.1 分类的基本介绍: 给定一个预定义的类标签集合,分类的任务是使用分类器的训练模型,为输入数据集的每个数据对象分配一个标签。通常,输入可能是离散值,也可能是连续值,但输出是离散二进制值或者名义数值等。分类算法通常描述为学习模型或函数。 f(x,y)=0,x=(...原创 2019-09-24 23:45:55 · 1078 阅读 · 0 评论 -
《R语言数据挖掘》读书笔记:一、预备知识
写在前面:此系列文章以《R语言数据挖掘》为主线,记录自己学习数据挖掘和算法的过程。还引用了大量前辈的博客总结,先谢过。第一章、预备知识 1.大数据 2.数据源 3.数据挖掘 数据挖掘算法与数据结构算法对比: https://www.cnblogs.com/Alear/p/10840230.html 数据挖掘领域十大经典...原创 2019-09-24 11:39:57 · 483 阅读 · 0 评论 -
《R语言数据挖掘》读书笔记:十、文本与网络数据挖掘
第十章、文本与网络数据挖掘概述: 对于文本挖掘,半结构化和非结构化文档是最主要的数据集。文本挖掘有几个主要的类型,比如聚类、文档检索与表示,以及异常检测,文本挖掘的应用包括,但不局限于,话题追踪、文本总结与分类。对于网络挖掘,网络内容、结构和使用挖掘是网络挖掘的一个重要应用。网络挖掘也可以用于用户行为建模、个性化观点和内容注释等。从另一个方面讲,网络挖掘集成了来自挖掘技术和来自万维网...原创 2019-09-29 20:44:41 · 378 阅读 · 0 评论