数据挖掘需要掌握高深的分析技能,高深的算法,需要掌握程序开发,这样,就能把数据挖掘工作做好,实际上不是这样的。着魔于高深的算法和程序开发,只能让你走火入魔。在工作中,最好的数据挖掘工程师是一定是最熟悉和理解业务的人。
2、数据挖掘与数据分析的区别
数据分析与数据挖掘的界定非常的模糊。但有一点可以确定,数据分析输出的是统计结果,比如总计,平均值等,数据挖掘输出的是模型或规则,工作中,仅此一点区别,而已。
(二)通过经典案例来学习数据挖掘,以达到触类旁通
对于数据挖掘的学习心得,jacky认为学习数据挖掘一定要结合业务背景、案例背景来学习,这样才是以解决问题为导向的学习方法。那么,大体上,数据挖掘经典案例有以下几种:
1、预测未来一段时间用户是否会流失
2、某个促销活动用户是否会响应参加
3、评估用户信用度是好还是差
4、细分现有的目标市场
5、对现有客户群进行群体细分
6、提升商品销售及交叉销售
7、一群用户购买了很多商品之后,哪些商品同时购买的几率比较高
8、预测未来的销量
9、天气预报中预测明天的气温是怎样的
10、国家的年底规划中,预测明年的GDP增长率是怎样的
数据挖掘要做的就是把上述类似的商业问题转化为数据挖掘问题
那么,问题来了,我们该如何把上述的商业问题转化为数据挖掘问题呢?我们可以对数据挖掘问题进行细分,分为四类问题:分类问题、聚类问题、关联问题、预测问题;
1、分类问题
用户流失预测、促销活动响应,评估用户度都属于数据挖掘的分类问题,我们需要掌握分类的特点,知道什么是有监督学习,掌握常见的分类方法:决策树、贝叶斯、KNN、支持向量机、神经网络和逻辑回归等;
2、聚类问题
细分市场,细分客户群体都属于数据挖掘的聚类问题,我们要掌握聚类特点,知道无监督学习的概念,了解常见的聚类算法,例如划分聚类、层次聚类、密度聚类、网格聚类、基于模型聚类等。
3、关联问题
交叉销售问题等属于关联问题,关联分析也叫购物篮