
数据挖掘
好多鱼哦
数据挖掘、机器学习
展开
-
数据挖掘中的集成方法——通过集成预测来提升精度(读书笔记)
第1章 集成发现将诸模型集成往往比单一模型得到的效果更显著。集成方式包括:平均法、投票法和顾问感知器。在从回声定位信号中提取蝙蝠分类的试验中,每种蝙蝠有3-8种信号。模型建立和交叉验证的结果显示:基准精度(选择相对多的数量):27%。决策树的精度:46%多项式网络的精度:64%剪枝后的神经网络的精度:69%八维变量的最近邻的精度:69%以上各种方法在不同的数据原创 2016-05-25 19:39:17 · 1623 阅读 · 0 评论 -
数据挖掘面试常见的问题
一、进程与线程的区别,线程的缺点进程和线程都是由操作系统程序运行的基本单元,系统利用该基本单元实现系统对应用的并发性。区别在于: 简而言之,一个程序至少有一个进程,一个进程至少有一个线程。 线程的划分尺度小于进程,使得多线程程序的并发性高。 另外,进程在执行过程中拥有独立的内存单元,而多个线程共享内存,从而极大地提高了程序的运行效率。 线程在执行过程中与进程还是有区别的。每个独立的原创 2016-08-13 11:31:59 · 1388 阅读 · 0 评论 -
经典分类算法—朴素贝叶斯笔记
概率->阈值->分类要求:每个类别,X的分量都是相互独立的。有点:优秀、稳健数据预处理:特征选择过程和主成分分析方法降维后,更合乎假设,一般结果还是不错的。使用条件:离散变量模型,算法理解容易;可以避免过度拟合可以胜任缺失数据的分类任务。样本小,维度高。缺点:稀疏敏感-—拉普拉斯平滑。应用:垃圾邮件分类、银行违约分类、精准营销原创 2016-07-20 16:57:17 · 336 阅读 · 0 评论 -
经典聚类算法——K-means
分类:有标签算法(监督学习)聚类:无标签算法(无监督学习)聚类主要思想:类内距离最小,类间距离最大。K-means:将数据集原创 2016-07-21 13:33:05 · 684 阅读 · 0 评论 -
如何引入数据挖掘
数据挖掘并不能解决所有待解决的问题,需要在项目开始之前确定要解决的问题。数据必须是可用的,数据必须是适当的,干净的。数据准备花费了50%以上的时间,而且挖掘项目越大,这个比例越高。数据挖掘部分占比仅10%。首尾两步骤无疑应该是数据分析和商业理解配合完成。数据准备:标准化、缩放、最大最小映射、平整、离散化:替换(最大值—最小值替换,平均值替换,零值替换)异原创 2016-07-21 14:12:31 · 276 阅读 · 0 评论 -
数据挖掘——变量选择
大多数数据集需要我们对之进行“清洗”工作,包括数据转换、数据离散化、数据缺失替换和数据异常点处理在实际的挖掘分析中,过多的变量对模型精度的提升十分有限,但是对于挖掘速度的影响确实十分巨大的,维数灾难就是描述这一情况的。我们需要多少变量来进行分析挖掘?特征规约:特征规约即针对特定数据集进行变量数目的减少,在P较大时,特征规约显得有很强的必要性特征规约方法:主成原创 2016-07-21 14:45:22 · 7088 阅读 · 0 评论 -
Random Forest和Gradient Boosting调参小结
先补充一下相关概念:Bagging对样本重采样,对每一重采样得到的子样本集训练一个模型,最后取平均,降低模型的 variance。Boosting 则是迭代算法,每一次迭代都根据上一次迭代的预测结果对样本进行加权,所以随着迭代不断进行,误差会越来越小, bias 会不断降低。bagging中的模型是强模型,偏差低,方差高。目标是降低方差。在bagging中,每个模型的b原创 2016-08-04 22:12:59 · 2950 阅读 · 0 评论 -
矩阵求导公式
原创 2016-08-17 15:55:55 · 681 阅读 · 0 评论 -
FP-growth算法
当搜索引擎输入一个单词的时候,会自动补全查询词项。用的就是FP-growth算法,一种用来高效发现频繁集的方法。比Apriori算法更快。应用:用于识别经常出现的元素相,制定决策、推荐元素或进行预测等。任务:将数据集存储在一个特定的称作FP树的结构之后发现频繁项对,即常在一块出现的元素项的集合FP树。执行速度比Apriori性能要好两个数量级以上。每次增加频繁项集的大小,Apriori原创 2016-08-18 19:01:56 · 842 阅读 · 0 评论 -
各聚类算法比较
聚类的目标是使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能地小。1.基于划分:给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K特点:计算量大。很适合发现中小规模的数据库中小规模的数据库中的球状簇。算法:K-MEANS算法、K-MEDOIDS算法、CLARANS算法2.基于层次:对给定的数据集进行层次似的分解,直到某种条件满原创 2016-08-09 21:57:16 · 4097 阅读 · 0 评论 -
大数据挖掘笔记2——PageRank
1.PageRankPageRank是一个函数,为Web中每个网页赋予一个实数值。PageRank值越高,越重要。Web转移矩阵:描述随机冲浪者下一步的访问行为。网页数目为n,则M为一个n*n的方阵。网页j有k条出链,则对链向网页i的元素值Mij=1/k。第一列表示处于A的随机冲浪者将以1/3的概率访问其他3个网页。随机冲浪者位置的概率分布可以通过n维列向量描述,第j个分量代表原创 2016-08-21 15:53:04 · 1557 阅读 · 0 评论 -
大数据挖掘笔记
1、度量给定词语在少数文档中的重要性:TF.IDF得分其中:tfij指词项i在文档j的词项频率,idfi指词项i在文档集中出现的逆文档频率。词项频率: 逆文档频率:例如:文档集有2^20篇文档,w在其中2^10篇中出现,在文档k中,只出现1次,该文档任一赐予做多出现20次。于是有:tf(w,k) = 1/20, idf(w) = log(2^20/2^10) = 1原创 2016-08-20 22:33:16 · 638 阅读 · 0 评论 -
Apriori算法小结
1、Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成挖掘频繁项集。2、步骤:1).依据支持度找出所有频繁项集(频度)2).依据置信度产生关联规则(强度)3、概念对于A->B①支持度:support = P(A ∩B),既有A又有B的概率②置信度:P(B|A) = p(AB)/P(A),在A发生的事件中同时发生原创 2016-08-10 10:39:07 · 2063 阅读 · 0 评论 -
数据仓库的基本架构
数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持( Decision Support)。数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、 数据仓库、 数据应用:数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是 ETL (抽取 Extra, 转化 Transfer, 装载 Load)的过程, ETL 是数据仓库的流水线原创 2016-08-22 17:01:38 · 2381 阅读 · 0 评论 -
序列挖掘算法比较
AprioriAll + GSP + FreeSpan + PrefixSpan1.基本概念AprioriAll算法属于Apriori类算法,其基本思想为首先遍历序列数据库生成候选序列并利用Apriori性质进行剪枝得到频繁序列。GSP(generalized sequential pattern)算法是AprioriAll算法的扩展算法,不同在于GSP引入了时间约束、滑动原创 2016-09-13 16:26:57 · 2769 阅读 · 0 评论 -
经典分类算法--决策树笔记
小数据人体体重研究,500个测试用户,6个指标,分为积极(正)和消极(负)两个标签。决策树分类结果:结果分析:在预测为消极的全部234名用户中,有207名确实为消极,预测精度为88.46%,预测为积极的预测精度为88.35%。而实际为消极的238名用户中,分类回召率达到86.97%,实际为积极的262名用户中,分类回召率为89.69%。进行数据分析时原创 2016-07-20 16:34:26 · 583 阅读 · 0 评论 -
LSH相似网页查找
寻找相似网页:如何快速判断网页的相似度网页文本对比方法:分词后Jaccard相似度一一比对很慢Top N长度的句子,hash成n个签名简单粗暴,准确率和召回率高(80%)Shingle算法原理复杂局部敏感度hash:Simhashgoogle用它完成亿级别的网页去重,汉明距离文档->分词->TF-IDF权重->普通ha原创 2016-07-29 23:50:12 · 989 阅读 · 0 评论 -
数据之美——读书笔记3
facebook数据收集和存储平台构建一个离线信息库,一方面用Python脚本把查询分发到facebook的MySQL服务器,另一方面用C++实时处理事件日志。通过ETL框架、数据仓库和内部控制台构建了一个简单的商业智能(BI)系统。商业智能系统仅仅收集和聚集数据是远远不够的,还需要利用数据传播进行推断的洞察力,有选择的将信息转移到需求上。ETL有规律的将已知数据源中的数据抽取原创 2016-07-29 21:12:02 · 640 阅读 · 0 评论 -
大数据初探
一、什么是大数据5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。应用:发现隐藏事物、商品相似性推荐、数据可视化、精准营销、指导决策、图像识别、股票预测、音乐推荐、辅助医疗、票房预测、商品营销、兴趣发现、异常检测、智能消费、木马检测、最优化决策、数据分析、重复性检测、电子商务、家庭生活、游戏娱乐、原创 2016-05-18 19:00:19 · 1444 阅读 · 0 评论 -
RandomForest随机森林感想
摘要:随机森林和决策树相比,能更好的防止过拟合。虽然每个基分类器很弱,但最后组合的结果通常很强。在机器学习算法中,有一类算法比较特别,叫组合算法(Ensemble),即将多个基算法(Base)组合起来使用。每个基算法单独预测,最后的结论由全部基算法进行投票(用于分类问题)或者求平均(包括加权平均,用于回归问题)。组合算法中,一类是Bagging(装袋),另一类是Boosti原创 2016-04-14 17:16:02 · 2911 阅读 · 0 评论 -
数据挖掘方法比较
一、可解释性和应用广泛性1、决策树:简单直观,逻辑性强,易于理解和应用,广泛使用。2、神经网络:可解释性差,远没有决策树和回归应用广泛。3、Logistic回归:更为成熟、应用更为广泛,具有强大的活力和最广泛的业务应用基础。二、缺失值和异常值敏感情况1、决策树:对缺失值几乎不做处理即可应用,不易受到异常值影响。2、神经网络:对缺失值敏感,需要对缺失值处理(赋值、替换或删除)原创 2016-05-31 17:35:35 · 1069 阅读 · 0 评论 -
分类器的评估与选择
混淆矩阵:分析分类器的预测能力。以二元分类为例实际\预测y=1(阳)y=0(阴)合计y=1TPFNPy=0FPTNN其中:TP:“真阳性”的个数,预测“阳性为阳性”,正确。TN:“真阴性”的个数,预测“阴性为阴性”,正确。FP:“真阳性”的个数,预测“阴性为阳性”,错误。FN:“原创 2016-06-02 13:45:07 · 1108 阅读 · 0 评论 -
Logistic回归模型
一、Logistic回归模型线性回归模型要求因变量是连续型正态变量。当因变量是分类变量时,Logistic回归模型是最好的回归模型。由于y只能取两个值1或0,y的条件数学期望:E(y|xi)=1*p(y=1|xi)+0*p(y=0|xi)=p(y=1|xi)选择一个函数,p(y=1|x)=f(x)=Logistic函数,作为回归方程。即利用观测数据(xi,yi)拟合一个Logist原创 2016-06-02 17:02:47 · 6283 阅读 · 0 评论 -
数据挖掘建模过程
一、数据挖掘(Data Mining,DM),又称为数据库中的知识发现(Knowledge Discover in Database,KDD),决策支持过程,主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,分析、归纳、推理,挖掘潜在的模式,帮助决策者调整市场策略,减少风险,做出正确决策。知识发现的的三个阶段:1、准备数据; 2、数据挖掘; 3、结果表达和解释最著名的数原创 2016-06-02 22:40:28 · 2597 阅读 · 0 评论 -
信用评分模型
逻辑回归模型:广泛应用在申请评分、行为评分、市场响应、客户流失等建模领域。决策树模型:往往被用来做催收评分和客户盈利模型。神经网络模型:用来防止申请和交易欺诈。信用评分的主要目的是估计消费者的信用情况(正常或违约),具体做法是根据酷虎的历史信息资料,利用合适的数学统计模型,得到消费者违约的概率值。客户的信息资料:人口统计学数据(性别、年龄、婚姻、收入、住房、居民、教育、种族、子女)原创 2016-06-03 16:11:30 · 4964 阅读 · 0 评论 -
数据挖掘方法与模型——笔记1
一、降维方法1.1 数据挖掘中降低维度的必要性数据分析人员需要防范多重共线性,即预测变量之间相互关联的情形,会导致解空间不稳定。具有高度相关性变量的模型往往强调某一特定成分,实际上会被重复计算。高维空间本身具有稀疏性。过多的变量会妨碍查找规律的建立,将预测变量的数目保持在可控的范围内。保留所有维度将会使问题变得棘手,目前最先进的数据可视化技术也不超过5维。降维的目的:原创 2016-06-15 21:45:25 · 808 阅读 · 0 评论 -
数据之美——读书笔记2
时间轴一致性模型分布式系统通过复制数据来提高系统的可靠性和容错性,并且将数据的不同的副本存放在不同的机器上。时间轴一致性要求数据的所有副本以相同的顺序执行所有的更新操作复杂查询向外扩展的系统架构,数据分区跨越很多服务器,操作将访问很多服务器,占用大量的服务器资源,导致其他的请求变慢,代价高,增加了延迟。异步式视图方法有助于响应查询,传统的数据库很难存储,需要不同的机制处理复杂的查询原创 2016-07-27 21:55:01 · 572 阅读 · 0 评论 -
数据之美——读书笔记1
1.个人数据收集本地+时间戳+位置+服务器2.数据存储数据库3.数据处理标注+分类+预估4.数据可视化图形图标故事讲述+场景+关系+交互+模式+解释5.要点数据表示生活+可视化教授知识+吸引用户兴趣6.用户体验原则牢记受众的期望和需求7.用户体验人员可视化设计+交互设计+信息架构+用户界面设计+可用性8.用户体验设计在设计阶段解决处理受众原创 2016-07-27 11:31:32 · 491 阅读 · 0 评论 -
数据挖掘——各种分类算法的优缺点
决策树一种启发式算法,核心是在决策树各个节点上应用信息增益等准则来选取特征,进而递归地构造决策树。优点:1. 计算复杂度不高,易于理解和解释,可以理解决策树所表达的意义;2. 数据预处理阶段比较简单,且可以处理缺失数据;3. 能够同时处理数据型和分类型属性,且可对有许多属性的数据集构造决策树;4. 是一个白盒模型,给定一个观察模型,则根据所产生的决策树很容易推断出相应的逻辑原创 2016-07-28 16:59:33 · 23990 阅读 · 1 评论 -
数据挖掘——SVM和神经网络
SVM是最优秀、准确而健壮的算法之一,维度不敏感,可处理线性可分和线性不可分数据。分为SVC和SVR。优势:分类性能好、稳定性高、算法更新快。一般选择RBF作为核函数。SVM分类决策中起决定作用的是支持向量。关键优化参数:C:惩罚系数,值越高,惩罚程度越大,误差容忍力越差。Gamma:影响每个支持向量对应的高斯的作用范围,值越大,泛化性能越差。限制:计算的复杂性原创 2016-07-28 17:16:37 · 6142 阅读 · 0 评论 -
分类中训练集中不平衡问题解决办法
1.改变数据集规模增加小类样本+减少大类样本2.更换评价指标准确度+召回率+F1值+ROC曲线3.数据集重采样小类样本过采样+大类样本欠采样4.生产人工数据SMOTE过采样算法5.更换分类算法决策树往往在类别不均衡数据上表现不错。6.对模型惩罚小类样本数据增加权值,降低大类样本的权值7.业务理解角度异常点检测+变化趋势检测8.原创 2016-07-29 14:43:09 · 618 阅读 · 0 评论 -
数据挖掘标准流程
Crisp-DM标准流程:商业理解(行业)->数据理解(关系)->数据准备(质量)->建立模型(算法)->模型评估(标准)->发布模型商业理解:工作目的状况评价数据挖掘目的评价树立项目计划数据理解:初步收集数据数据技术数据探索检验数据质量数据准备:数据设定数据选择数据清洗 / 生成 / 综合适用的数据形式建立模型:原创 2016-07-19 22:06:50 · 1466 阅读 · 0 评论 -
处理缺失值的方法
数据清理中,处理缺失值的方法有两种:删除法:1)删除观察样本 2)删除变量:当某个变量缺失值较多且对研究目标影响不大时,可以将整个变量整体删除 3)使用完整原始数据分析:当数据存在较多缺失而其原始数据完整时,可以使用原始数据替代现有数据进行分析 4)改变权重:当删除缺失数据会改变数据结构时,通过对完整数据按照不同原创 2016-09-13 16:44:51 · 9377 阅读 · 0 评论