
数据挖掘原理
文章平均质量分 51
codemosi
hadoop hive hbase mahout storm spark kafka flume,等连载中,做个爱分享的人。
干一件事,干好一件事!
QQ :1606588828
展开
-
02数据挖掘原理-数据分析 数据准备
数据准备包含 ,1:数据获取(来源),2:数据抽样 数据获取的来源包括:1:调研,2:设备采集,3人工输入 ,4 各类文档,5外部数据库 数据抽样方式包括,1:概率抽样(简单随机抽样,分层抽样,整群抽样,等距抽样),2:非概率抽样(便利抽样,判断抽样,配额抽样)。简单随机抽样的基本方法,1:数字特征发,2:矩法,3:最大似然法,4:最小二乘法,5:贝叶斯法原创 2014-12-18 11:25:51 · 543 阅读 · 0 评论 -
数据预处理之归一化
归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。归一化是为了加快训练网络的收敛性,可以不进行归一化处理 归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布,归一化在-1--+1之间是统计的坐标分布。归一化有同一、统一和合一的意思。无论是为了建模还是为了计算,首先基本度量单位要同一,神经网络是以样本在事件中的统计分别几率转载 2016-03-11 13:40:48 · 1039 阅读 · 0 评论 -
再谈机器学习中的归一化方法(Normalization Method)
机器学习、数据挖掘工作中,数据前期准备、数据预处理过程、特征提取等几个步骤几乎要花费数据工程师一半的工作时间。同时,数据预处理的效果也直接影响了后续模型能否有效的工作。然而,目前的大部分学术研究主要集中在模型的构建、优化等方面,对数据预处理的理论研究甚少,可以说,很多数据预处理工作仍然是靠工程师的经验进行的。从业数据建模/挖掘工作也有近2年的时间,在这里结合谈一谈数据预处理中归一化方法。在转载 2016-03-11 13:38:43 · 787 阅读 · 0 评论 -
学好这些你就牛了,常用的机器学习&数据挖掘知识点
Basis(基础):MSE(Mean Square Error 均方误差),LMS(LeastMean Square 最小均方),LSM(Least Square Methods 最小二乘法),MLE(MaximumLikelihood Estimation最大似然估计),QP(Quadratic Programming 二次规划), CP(Conditional Probab转载 2016-03-11 00:59:01 · 769 阅读 · 0 评论 -
mahout 频繁模式代码样板
频繁模式挖掘,mahout的实现是fpgrowth算法。贴样板马克一下。/** * 关联规则挖掘实现 * 李国忠 */public final class PatternFinder extends AbstractJob { private static final Logger log = LoggerFactory.getLogger(PatternFind原创 2015-02-12 16:27:49 · 816 阅读 · 0 评论 -
07数据挖掘原理-数据挖掘
数据挖掘的发展过程。 1关系型数据库 -》2数据仓库 -》3数据挖掘-》4大数据挖掘。xx网北京地区2013年1月份的注册数是多少, 关系型数据库的解决方案:查询单个数据库,mysql,特点一个数据库。xx网北京地区,上海地区,广州地区2013年1月份的注册数个是多少 , 数据仓库原创 2014-12-18 15:23:11 · 639 阅读 · 0 评论 -
01数据挖掘原理-数据分析
(转载网上图片) 数据挖掘的基础是数据分析,做数据分析,1数据准备 --》2数据处理--》3数据加工原创 2014-12-18 11:03:18 · 604 阅读 · 0 评论 -
06数据挖掘原理-数据分析 数据相关性
相关系分析是分析变量对结果的影响力,也可以说是变量和结果的相关性。变量有数字变量(1,2的差异),类别变量(北京,上海,地区的差异。)相关系分析包括,1:方差分析(单因素,双因素的类别变量的相关性),2:卡方分析(也是类别变量的相关性),3:相关分析(数字变量的相关性)。 相关分析(数字变量) 1: 二元相关 (连续变量,等级变量)原创 2014-12-18 14:22:35 · 963 阅读 · 0 评论 -
05数据挖掘原理-数据分析 方法论和方法
数据分析方法论是知道数据分析方法的思想。 数据分析方法论 1:PEST ,政治,经济,社会,技术四个维度分析。用于行业分析 2:4P,产品,价格,渠道,促销四个维度分析。用于营销策划 3:逻辑树 ,讲问题分层罗列,逐步向下展开。用于业务问题专题分析 4:用户行为分析 ,认知原创 2014-12-18 13:05:29 · 527 阅读 · 0 评论 -
04数据挖掘原理-数据分析 数据描述
数据描述包括,1:描述统计,2: 数学的统计方法包括,1:描述统计(集中趋势,离散程度,相关性),2:推断统计(参数估计,假设检验) 集中趋势(代表一个数据集的代表值) 1: 众数 ,多次重复出现的数的多个数。 2:中位数,排序后,排在中间位置的多个数。 3:四分数,排序后,原创 2014-12-18 12:55:30 · 527 阅读 · 0 评论 -
03数据挖掘原理-数据分析 数据处理
数据处理,目的是为了把抽样完的原始数据,转换成符合分析算法需求(哪些用户,哪些字段,哪些时间窗口),的标准化数据。数据处理包括,1:数据审核(用户,字段,数据缺失,数据错误),2:缺失值处理(均值中位数固定值填充,正态随机,决策树算法),3:去极值(填充,丢弃),4:数据转换(归一化,z分数,对数转换)。原创 2014-12-18 12:26:01 · 599 阅读 · 0 评论 -
以性别预测为例,谈谈数据挖掘中的分类问题
互联网的迅猛发展,催生了数据的爆炸式增长。面对海量的数据,如何挖掘数据的价值,成为一个越来越重要的问题。本文首先介绍数据挖掘的基本内容,然后按照数据挖掘基本的处理流程,以性别预测实例来讲解一个具体的数据挖掘任务是如何实现的。数据挖掘的基本内容首先,对于数据挖掘的概念,目前比较广泛认可的一种解释如下:Data mining is the use of efficient te转载 2016-02-29 12:33:10 · 942 阅读 · 0 评论