数据挖掘
文章平均质量分 95
watermelon12138
心有猛虎,细嗅蔷薇
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据挖掘笔记(1)-数据探索
数据探索有助于选择合适的数据预处理方法和建模方法,数据探索可以从数据质量分析和数据特征分析两个角度进行探索。数据质量分析数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据有一般有以下内容:缺失值异常值不一致的值重复数据以及含有特殊符号的数据缺失值分析...原创 2018-12-08 17:22:40 · 1627 阅读 · 0 评论 -
数据挖掘笔记(8)-使用颜色矩提取图像的特征
颜色矩一阶颜色矩一阶颜色矩采用一阶原点矩,反映图像的整体明暗程度。对于RGB颜色空间的图像,i=1,2,3,Ei 表示第i个通道上的一阶颜色矩,Pij表示第j个像素的第i个通道上的颜色值。二阶颜色矩二阶颜色矩采用二阶中心距的平方根,反映图像颜色的分布范围。σi表示第i个颜色通道上的二阶颜色矩。三阶颜色矩三阶颜色矩采用三阶中心距的立方根,反映图像颜色分布的对称性。Si表示第...原创 2019-02-27 16:47:01 · 3873 阅读 · 1 评论 -
数据挖掘笔记(7)-离群点检测
离群点检测是为了发现数据集中与其它大部分数据显著不同的数据点,建模的的时候通常将离群点视为噪声丢弃。离群点虽然会影响建模的准确率,但是在特定的应用中,离群点蕴含着更大的研究价值,比如从银行卡刷卡记录数据的离群点分析某用户是否存在异常刷卡行为,再比如运动员上场比赛前的体能特征数据中离群点分析该运动员是否嗑药了。下面来介绍几种常用的离群点检测方法:一、基于统计模型的离群点检测通过估计概率分布的参数...原创 2019-01-28 17:04:47 · 5377 阅读 · 1 评论 -
数据挖掘笔记(5)-关联规则算法Apriori
1、关联规则概念如果去超市买东西,我们会发现购买了牛奶的客户很可能会去购买面包,那么“牛奶=>面包”就称之为关联规则,其中牛奶是前项,面包是后项,它们都是项集(单项集)。2、关联规则算法AprioriApriori是最常用也是最经典的挖掘频繁项集的算法,其核心思想是通过连接产生候选项及其支持度,然后通过剪枝生成频繁项集。(1)项集项集是项的集合,包含k个项的就是k项集,如{牛奶,面...原创 2019-01-22 11:12:10 · 6211 阅读 · 2 评论 -
K-means聚类算法、Pandas绘制概率密度图和TSNE展示聚类结果
K-means聚类算法是典型的基于距离的非层次聚类算法,在最小化误差函数的基础上将数据划分为预定的K个类,使得K个类达到类内数据距离之和最小而类间距离之和最大。它是无监督学习算法,采用距离作为相似性的度量指标,即认为两个对象距离越近,其相似性就越大。1、数据类型与相似性度量(1)连续属性和离散属性数据对于连续属性,要依次对每个属性的属性值进行零-均值化处理;对于离散属性,要依次对每个属性的属...原创 2019-01-19 18:43:12 · 10856 阅读 · 3 评论 -
分类与预测模型效果评价
误差评价法:通常通过绝对/相对误差、平均绝对误差、均方误差、均方根误差等指标来衡量模型的预测效果。(1)绝对误差与相对误差Y表示真实值,Y^表示预测值E为绝对误差:E=Y-Y^e为相对误差:e=(Y-Y^)/Y(2)平均绝对误差(Mean Absolute Error)误差有正有负,为了避免误差相互抵消故取误差绝对值的综合的平均值。(3)均方误差(Mean Squared Err...原创 2019-01-18 19:15:50 · 13552 阅读 · 2 评论 -
数据挖掘笔记(6)-时间序列分析
参考博客有:https://blog.youkuaiyun.com/WMN7Q/article/details/70174300一、时间序列的概念按时间顺序排列的n个随机变量X1,X2,…,Xn称为随机变量X的时间序列,简记为{Xn},而x1,x2,…,xn代表随机变量X的时间序列的n个有序观察值。比如某饭店在1月1号到1月10号所有菜品的日销量数据如下图所示:则称3023,3039,3056,313...原创 2019-01-23 22:21:10 · 6227 阅读 · 0 评论 -
BP神经网络
神经网络知识简述人工神经元:人工神经元是人工神经网络操作的基本信息处理单位。人工神经元模型:一个人工神经元对输入X=[x1,x2,…xm]T的输出为y=f(u + b),其中有:b为阈值激活函数:人工神经网络的学习也称为训练,在分类与预测中,人工神经网络主要使用有指导的学习方式,根据给定的训练样本调整神经网络的参数使得网络输出接近已知的样本类标记或其它形式的因变量。δ学习规...原创 2019-01-18 11:35:57 · 579 阅读 · 0 评论 -
数据挖掘笔记(4)-特征选择
特征选择的优点:(1)在数据预处理之后进行特征选择,挑选重要的特征建立模型可以模型的准确率,增加模型的泛华能力。(2)减少建立模型和模型工作时的时间消耗。(3)增强对特征和特征值的理解。常用的特征选择的方法1.去掉低方差的特征这是最简单的特征选择方法。如果特征的取值是离散的,用该方法可以去掉低方差的特征,比如某个特征的取值90%都是一样或者完全一样,那这个特征对于预测结果起到的作用甚小...原创 2019-01-17 16:42:14 · 2102 阅读 · 0 评论 -
数据挖掘笔记(3)-数据预处理
数据预处理的主要内容包括数据清洗、数据集成、数据变换和数据规约,它的工作量在数据挖掘过程中占60%。一、数据清洗1.1缺失值处理删除记录不处理数据插补使用均值/中位数/众数插补使用固定值插补比如男生身高这个属性有空值,可以用全国的男生平均身高来插补,这是一个固定值。最近临插补用与有空值的样本最接近的样本的属性值来插补。比如可以和K_means算法一样求距离,求出距...原创 2018-12-19 21:32:28 · 2011 阅读 · 0 评论 -
数据挖掘笔记(9)-FPGrowth算法
一、FP树的建立(1)建立项头表扫描事务数据集一遍,记录每个项出现的次数,根据给定的最小支持度计数或者最小支持度筛选得到频繁1项集及它们的支持度计数,按照它们的支持度计数从大到小排序得到项头表。如:事务数据集(每行为一个事务):在给定最小支持度计数为2得到项头表如下:(2)过滤并排序事务数据集因为原始的事务数据集中的事务可能包含频繁1项集中没有的项,所以对于每个事务要把非频繁1项...原创 2019-03-10 19:24:33 · 2171 阅读 · 0 评论
分享