
数据挖掘与机器学习精华
文章平均质量分 78
本人长期从事数据挖掘与机器学习相关工作,现开设此专栏,一方面整理汇总之前写的博客,另一方面提供一个大家一起讨论的平台。
数据挖掘工人
专注于数据分析以及数据挖掘,电信银行互联网营销解决方案。喜欢分享学习数据挖掘、数据分析、PPT、BI、SAS、SPSS、Python、oracle相关知识。更多信息请关注本人新浪微博:@数据挖掘工人
展开
-
数据挖掘在金融行业十大应用
目前数据挖掘在各行各业应用广泛,尤其在金融、保险、电子商务和电信方面得到了很好的效果,本文对金融行业数据挖掘应用做了一个简单的总结,目的是想起到抛砖引玉的作用,欢迎各位大牛拍砖。一:风险控制(贷款偿还预测和客户信用评价)有很多因素会对货款偿还效能和客户信用等级计算产生不同程度的影响。数据挖掘的方法,如特征选择和属性相关性计算,有助于识别重要的因素和非相关因素。例如,与货款偿还风险相原创 2014-09-20 09:17:48 · 9689 阅读 · 2 评论 -
数据挖掘的十种分析方法
1.记忆基础推理法(Memory-Based Reasoning;MBR)记忆基础推理法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较。记忆基础推理法中有两个主要的要素,分别为距离函数(distance function)与结合函数(combination function)。距离函数的用意在找出最相似的案例;结合原创 2014-09-25 17:10:57 · 2065 阅读 · 0 评论 -
数据挖掘算法之-关联规则挖掘(Association Rule)(购物篮分析)
在各种数据挖掘算法中,关联规则挖掘算是比较重要的一种,尤其是受购物篮分析的影响,关联规则被应用到很多实际业务中,本文对关联规则挖掘做一个小的总结。首先,和聚类算法一样,关联规则挖掘属于无监督学习方法,它描述的是在一个事物中物品间同时出现的规律的知识模式,现实生活中,比如超市购物时,顾客购买记录常常隐含着很多关联规则,比如购买圆珠笔的顾客中有65%也购买了笔记本,利用这些规则,商场人员可以很原创 2014-09-25 17:13:29 · 5691 阅读 · 0 评论 -
数据挖掘领域十大经典算法初探
一、C4.5C4.5,是机器学习算法中的一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。C4.5相比于ID3改进的地方有:1、用信息增益率来选择属性。原创 2014-09-25 17:18:58 · 1154 阅读 · 1 评论 -
数据挖掘技术在信用卡业务中的应用及实例分析
信用卡业务具有透支笔数巨大、单笔金额小的特点,这使得数据挖掘技术在信用卡业务中的应用成为必然。国外信用卡发卡机构已经广泛应用数据挖掘技术促进信用卡业务的发展,实现全面的绩效管理。我国自1985年发行第一张信用卡以来,信用卡业务得到了长足的发展,积累了巨量的数据,数据挖掘在信用卡业务中的重要性日益显现。 一、数据挖掘技术在信用卡业务中的应用 数据挖掘技术在信用卡业务中原创 2014-09-25 17:52:26 · 3478 阅读 · 0 评论 -
数据挖掘编程语言选择(Python与R的PK)
数据挖掘技术日趋成熟和复杂,随着互联网发展以及大批海量数据的到来,之前传统的依靠spss、SAS等可视化工具实现数据挖掘建模已经越来越不能满足日常需求,依据美国对数据科学家(data scientist)的要求,想成为一名真正的数据科学家,编程实现算法以及编程实现建模已经是必要条件;目前很多从事数据挖掘工作的人,大多都是出身非计算机专业,本身对编程基础比较低,所以找到一门快速上手而又高效的编程语言原创 2014-09-25 17:54:18 · 4582 阅读 · 1 评论 -
学习总结之数据挖掘三大类六分项
Data Mining可分为三大类六分项来说明:Classification和Clustering属于分类区隔类;Regression和Time-series属于推算预测类;Association和Sequence则属于序列规则类。 Classification是根据一些变量的数值做计算,再依照结果作分类。(计算的结果最后会被分类为几个少数的离散数值,例如将原创 2014-10-08 15:19:23 · 2400 阅读 · 0 评论 -
数据挖掘在呼叫中心的六大应用点
当前商业正在从“以产品为中心”到“以用户为中心”转变,很多企业将CRM作为企业成功的一个关键因素,呼叫中心作为影响用户最直接的渠道,起着至关重要的作用;利用数据挖掘技术,可以提高企业呼叫中心的效率的同时来增加客户满意度,下面讨论下具体可以应用的方面。 1、根据客户的历史信息、呼叫信息、客户级别等信息,建立客户接入分类模型,对接入客户进行客户细分,针对不同的客户群采取不同的服务应答策原创 2014-09-30 15:23:14 · 1657 阅读 · 1 评论 -
数据挖掘算法之-关联规则挖掘(Association Rule)(购物篮分析)
在各种数据挖掘算法中,关联规则挖掘算是比较重要的一种,尤其是受购物篮分析的影响,关联规则被应用到很多实际业务中,本文对关联规则挖掘做一个小的总结。首先,和聚类算法一样,关联规则挖掘属于无监督学习方法,它描述的是在一个事物中物品间同时出现的规律的知识模式,现实生活中,比如超市购物时,顾客购买记录常常隐含着很多关联规则,比如购买圆珠笔的顾客中有65%也购买了笔记本,利用这些规则,商场人员可以很原创 2014-10-08 15:22:06 · 6091 阅读 · 0 评论 -
数据分析在零售业八大应用点总结
1、销售指标分析: 主要分析各项销售指标,例如毛利、毛利率、坪效、交叉比、销进比、盈利能力、周转率、同比、环比等等;而分析维又可从管理架构、类别品牌、日期、时段等角度观察,这些分析维又采用多级钻取,从而获得相当透彻的分析思路;同时根据海量数据产生预测信息、报警信息等分析数据;还可根据各种销售指标产生新的透视表,例如最常见的ABC分类表、商品敏感分类表、商品盈利分类表等。这些复杂的指原创 2014-10-08 15:22:54 · 6112 阅读 · 0 评论 -
评分卡模型剖析之一(woe、IV、ROC、信息熵)
信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型。 本文重点介绍模型变量WOE以及IV原理,为表述方便,本文将模型目标标量为1记为违约用户,对于目标变量为0记为正常用户;则WOE(weight of Evidenc原创 2014-09-26 16:48:53 · 37570 阅读 · 5 评论