
数据分析
好多鱼哦
数据挖掘、机器学习
展开
-
大数据初探
一、什么是大数据5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。应用:发现隐藏事物、商品相似性推荐、数据可视化、精准营销、指导决策、图像识别、股票预测、音乐推荐、辅助医疗、票房预测、商品营销、兴趣发现、异常检测、智能消费、木马检测、最优化决策、数据分析、重复性检测、电子商务、家庭生活、游戏娱乐、原创 2016-05-18 19:00:19 · 1444 阅读 · 0 评论 -
数据挖掘——变量选择
大多数数据集需要我们对之进行“清洗”工作,包括数据转换、数据离散化、数据缺失替换和数据异常点处理在实际的挖掘分析中,过多的变量对模型精度的提升十分有限,但是对于挖掘速度的影响确实十分巨大的,维数灾难就是描述这一情况的。我们需要多少变量来进行分析挖掘?特征规约:特征规约即针对特定数据集进行变量数目的减少,在P较大时,特征规约显得有很强的必要性特征规约方法:主成原创 2016-07-21 14:45:22 · 7087 阅读 · 0 评论 -
如何引入数据挖掘
数据挖掘并不能解决所有待解决的问题,需要在项目开始之前确定要解决的问题。数据必须是可用的,数据必须是适当的,干净的。数据准备花费了50%以上的时间,而且挖掘项目越大,这个比例越高。数据挖掘部分占比仅10%。首尾两步骤无疑应该是数据分析和商业理解配合完成。数据准备:标准化、缩放、最大最小映射、平整、离散化:替换(最大值—最小值替换,平均值替换,零值替换)异原创 2016-07-21 14:12:31 · 276 阅读 · 0 评论 -
经典聚类算法——K-means
分类:有标签算法(监督学习)聚类:无标签算法(无监督学习)聚类主要思想:类内距离最小,类间距离最大。K-means:将数据集原创 2016-07-21 13:33:05 · 684 阅读 · 0 评论 -
经典分类算法—朴素贝叶斯笔记
概率->阈值->分类要求:每个类别,X的分量都是相互独立的。有点:优秀、稳健数据预处理:特征选择过程和主成分分析方法降维后,更合乎假设,一般结果还是不错的。使用条件:离散变量模型,算法理解容易;可以避免过度拟合可以胜任缺失数据的分类任务。样本小,维度高。缺点:稀疏敏感-—拉普拉斯平滑。应用:垃圾邮件分类、银行违约分类、精准营销原创 2016-07-20 16:57:17 · 336 阅读 · 0 评论 -
经典分类算法--决策树笔记
小数据人体体重研究,500个测试用户,6个指标,分为积极(正)和消极(负)两个标签。决策树分类结果:结果分析:在预测为消极的全部234名用户中,有207名确实为消极,预测精度为88.46%,预测为积极的预测精度为88.35%。而实际为消极的238名用户中,分类回召率达到86.97%,实际为积极的262名用户中,分类回召率为89.69%。进行数据分析时原创 2016-07-20 16:34:26 · 583 阅读 · 0 评论 -
数据挖掘标准流程
Crisp-DM标准流程:商业理解(行业)->数据理解(关系)->数据准备(质量)->建立模型(算法)->模型评估(标准)->发布模型商业理解:工作目的状况评价数据挖掘目的评价树立项目计划数据理解:初步收集数据数据技术数据探索检验数据质量数据准备:数据设定数据选择数据清洗 / 生成 / 综合适用的数据形式建立模型:原创 2016-07-19 22:06:50 · 1466 阅读 · 0 评论 -
分类中训练集中不平衡问题解决办法
1.改变数据集规模增加小类样本+减少大类样本2.更换评价指标准确度+召回率+F1值+ROC曲线3.数据集重采样小类样本过采样+大类样本欠采样4.生产人工数据SMOTE过采样算法5.更换分类算法决策树往往在类别不均衡数据上表现不错。6.对模型惩罚小类样本数据增加权值,降低大类样本的权值7.业务理解角度异常点检测+变化趋势检测8.原创 2016-07-29 14:43:09 · 618 阅读 · 0 评论 -
《大数据精准挖掘》电信行业应用--客户流失预测
一、背景介绍国内电信市场日趋饱和,企业竞争日趋激烈,获取新客户的成本远远高于留住现有客户的花费。发展一位新客户的成本是留住老客户的6倍;客户加入时间越长,价值越高。二、商业理解用户:业务分析员+决策人员客户流失可能性预测:对每一位客户流失倾向的大小进行预测。流失原因:主要流失原因的预测和分析。客户流失影响:预测、分析。客户保留措施:根据客户不同的特点,差异化挽留措施原创 2016-06-09 22:31:03 · 2511 阅读 · 0 评论 -
《大数据精准挖掘》保险电销应用—寻找目标客户
YBB保险电话销售公司已经做完了针对20万用户发放赠险产品的工作,想从接受赠险的客户中,找出会在将来购买付费型保险的客户,从而进行电话营销。为此,YYB公司从20万人中随机选取了5万人向其电话推销付费型保险,结果有200名客户购买了付费型保险。要想节约成本,怎么从这15万人中找出购买可能性最高的客户呢?下面对整个数据挖掘过程进行剖析。1、业务目标:找出最容易在将来购买保险的人。2、数据原创 2016-06-09 21:05:35 · 2501 阅读 · 3 评论 -
pandas入门
给大家介绍一个数据分析的大杀器——pandas。pandas是基于Python的科学计算模块NumPy构建的含有更高级数据结构和工具的数据分析包,可以帮助我们更快更方便的进行数据处理操作,使用Pandas可处理亿级数据哦。一、安装和引入pandas安装:pip install pandas引入:from pandas import series,dataframe二、数原创 2016-01-04 14:48:15 · 569 阅读 · 0 评论 -
利用matplotlib中imshow()函数绘图
matplotlib 是python最著名的2D绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图。而且也可以方便地将它作为绘图控件,嵌入GUI应用程序中。通过简单的绘图语句,就可以绘制出高质量的图了。这里我们就主要讲一下inshow()函数的使用吧。一、引入matplotlib函数库如果你使用的是windows平台,大家可以直接下载对应版本的matpl原创 2016-01-05 14:53:13 · 84817 阅读 · 2 评论 -
数据仓库的基本架构
数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持( Decision Support)。数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、 数据仓库、 数据应用:数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是 ETL (抽取 Extra, 转化 Transfer, 装载 Load)的过程, ETL 是数据仓库的流水线原创 2016-08-22 17:01:38 · 2381 阅读 · 0 评论