数据挖掘
zjlamp
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
实例:电力窃漏电用户自动识别-神经网络和决策树
1、数据划分R语言实现:将专家样本划分为测试样本和训练样本,随机选取20%为测试样本,剩下来的作为训练样本。data = read.csv(file="model.csv")colnames(data) = c("time","userid","ele_ind","loss_ind","alarm_ind","class") #数据命名head(d原创 2018-08-14 11:43:29 · 3669 阅读 · 6 评论 -
数据挖掘相关概念
数据挖掘任务分为两大类:1、预测任务根据其他属性的值,预测特定属性的值。有两类预测建模任务:分类(classification),用于预测离散的目标变量;回归(regression),用于预测连续的目标变量。2、描述任务概况数据中潜在联系的模式,如相关、趋势、聚类、轨迹和异常等。描述性数据挖掘任务通常是探查性的,常常需要后处理技术验证和解释结果。 数据集可以看做是数...原创 2018-10-03 09:41:56 · 1202 阅读 · 0 评论 -
数据分析/挖掘的六个步骤
1、明确分析的目的和思路目的:解决什么问题思路:搭建分析框架,把分析目的分解成若干个不同的分析要点,即从哪几个角度进行分析,采用哪些分析指标等。(数据分析方法论)2、数据收集3、数据处理数据清洗:处理原始数据中的异常值和缺失值;聚集:将两个或多个对象合并成单个对象。比如将每日的数据聚集成每月的数据;维规约:将数量众多的特征通过规约得到少量的特征,可采用主成分分析(PCA...原创 2018-08-18 21:28:10 · 9411 阅读 · 0 评论 -
数据挖掘之决策树
决策树是一个树状结构,它的每一个叶节点对应着一个分类,非叶节点对应在某个属性上的划分,根据样本在该属性上的不同取值将其划分为若干个子集。构造决策树的核心问题是在每一步如何选择适当的属性对样本进行拆分。对一个分类问题,从已知类标记的训练样本中学习并构造出决策树是一个自上而下、分而治之的过程。决策树算法的分类决策树算法 算法描述 ID3算法 核心是在决策树的各级节点上,使用...原创 2018-08-24 23:23:40 · 3050 阅读 · 0 评论 -
python分类预测模型总结
常见的模型评价和在Python中的实现 模型 模型特点 所属库 逻辑回归 线性分类模型 sklearn.linear_model SVM 用来回归、预测、分类等。模型可以是线性的/非线性的 sklearn.svm 决策树 基于“分类讨论、逐步细化”思想的分类模型,直观易解释 sklearn.tree 随机森林 思想跟决策树类似...原创 2018-08-27 14:15:57 · 15674 阅读 · 0 评论 -
数据挖掘之人工神经网络
人工神经网络(Artificial Neural Networks, ANN)是模拟生物神经网络进行信息处理的一种数学模型。人工神经元模型激活函数主要分为域值函数(阶梯函数)、分段线性函数、非线性转移函数、Relu函数(计算简单、效果佳)。人工神经网络的学习也称为训练,指神经网络在收到外部环境的刺激下调整神经网络的参数,使神经网络以一种新的方式对外部环境做出反应的过程。目前,已有多种人...原创 2018-08-27 10:52:19 · 4350 阅读 · 0 评论 -
python数据挖掘相关扩展库
扩展库 简介 Numpy 提供数组支持,以及相应的高效处理函数。 Scipy、Matplotlib、Pandas等库都依赖于它。 Scipy 提供矩阵支持,以及矩阵相关的数值计算模块\ 包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。 ...原创 2018-08-22 13:50:46 · 2015 阅读 · 1 评论 -
数据挖掘之时间序列分析
按时间顺序排列的一组随机变量X1,X2,…,Xt表示一个随机事件的时间序列。时间序列分析的目的是给定一个已被观测了的时间序列,预测该序列的未来值。表1 常用的时间序列模型 模型名称 描述 平滑法 常用于趋势分析和预测,利用修匀技术,削弱短期随机波动对序列的影响,使序列平滑化。 根据所用平滑技术的不同,可分为移动平均法和指数平滑法。 趋势拟合法...原创 2018-08-12 23:45:16 · 61101 阅读 · 3 评论 -
数据挖掘之关联规则分析
关联规则分析也称为购物篮分析,最早是为了发现超市销售数据库中不同的商品之间的关联关系。用于寻找数据集中各项之间的关联关系。根据所挖掘的关联关系,可以从一个属性的信息来推断另一个属性的信息。当置信度达到某一阈值时,可以认为规则成立。常用的关联规则算法算法名称 算法描述 Apriori 关联规则最常用、最经典的挖掘频繁项集的算法,核心思想是通过连接产生候选项及其支持...原创 2018-08-12 14:01:18 · 25371 阅读 · 1 评论 -
聚类分析实例-标注聚类中心
1、准备数据集set.seed(2) #设置随机数种子x = matrix(rnorm(50*2),ncol=2) #生成50X2的正态分布矩阵x[1:25,1] = x[1:25,1] +3x[1:25,2] = x[1:25,2] -4 #构建不同的聚类2、创建聚类模型km.out = kmeans(x,2,nstart=20)km.out$cluster输出...原创 2018-08-12 11:37:20 · 3609 阅读 · 1 评论 -
数据挖掘之聚类分析
聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。与分类模型需要使用有类标记样本构成的训练数据不同,聚类模型可以建立在无类标记的数据上,是一种非监督的学习算法。聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度将它们划分为若干组,划分的原则是组内距离最小化,而组间距离最大化。聚类分析之前将数值大都为0的变量和相关性较高的变量删除掉。然后通过主成分分...原创 2018-08-12 10:48:16 · 31640 阅读 · 6 评论 -
数据挖掘之回归分析
回归分析是通过建立模型来研究变量之间相互关系的密切程度,以及进行模型预测的一种有效工具。常见的回归模型如下:名称 适用条件 线性回归 因变量与自变量是线性关系 非线性回归 因变量与自变量不都是线性关系 Logistic回归 因变量一般有1和0两种取值,也有多分类的情况 岭回归 自变量之间具有多重共线性 下面介绍常用的二分类Logistic回...原创 2018-08-11 13:37:10 · 2778 阅读 · 0 评论 -
数据挖掘之分类
分类是构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别。分类的算法分为以下两步:1、学习步,通过归纳分析训练样本集,来建立分类模型,得到分类规则;2、分类步,先用已知的测试样本集评估分类规则的准确率,如果准确率是可以接受的,则使用该模型对未知类标号的待测样本集进行预测。分类属于有监督学习,有监督学习基于一组包含预测变量值和输出变量值的样本单元,将...原创 2018-08-11 11:06:28 · 578 阅读 · 0 评论 -
实例:水质评价分类-支持向量机
1、数据划分。对样本进行抽样,抽取80%作为训练样本,剩下的20%作为测试样本。2、建模R语言实现:traindata = read.csv("trainData.csv")head(traindata)输出结果如下:traindata = transform(traindata,class = as.factor(class)) #将class列转换为fact...原创 2018-08-14 16:47:19 · 1734 阅读 · 1 评论 -
分类模型的评价
1、二分类模型指标 计算 备注 精准率(Precision) Precision=TP / (TP+FP) 在所有被预测为阳性的测试数据中,真正是阳性的比率。 越大越好 召回率(Recall) Recall=TP / (TP+FN) 在所有实际为阳性的测试数据中,真正是阳性的比率。 越大越好 F...原创 2018-09-21 17:46:29 · 325 阅读 · 0 评论
分享