
数据挖掘项目实战
文章平均质量分 95
冲!!!
哎呦-_-不错
读书太少而想太多
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据挖掘实战—家用热水器用户行为分析与事件识别
文章目录引言一、数据探索分析1.数据质量分析1.1缺失值分析1.2 异常值分析1.3 重复数据分析2.数据特征分析2.1 分布分析三、数据预处理1.数据归约之属性归约2.数据归约之数值归约引言 居民在使用家用热水器的过程中,会因为地区气候、不同区域和用户年龄性别差异等原因形成不同的使用习惯。家电企业若能深入了解其产品在不同用户群中的使用习惯,从而产商便可以对不同的客户群提供最适合的个性化产品,制定相应的营销策略,开拓新市场。定义挖掘目标如下:根据热水器采集到的数据,划分一次完整的用水事件在划分好原创 2021-04-09 20:26:33 · 14328 阅读 · 24 评论 -
数据挖掘实战—电商产品评论数据情感分析
文章目录引言一、评论预处理1.评论去重2.数据清洗二、评论分词1.分词、词性标注、去除停用词2.提取含名词的评论3.绘制词云查看分词效果三、构建模型1.评论数据情感倾向分析1.1 匹配情感词1.2 修正情感倾向1.3 查看情感分析效果引言 本文主要针对用户在电商平台上留下的评论数据,对其进行分词、词性标注和去除停用词等文本预处理。基于预处理后的数据进行情感分析,并使用LDA主题模型提取评论关键信息,以了解用户的需求、意见、购买原因及产品的优缺点等,最终提出改善产品的建议。定义如下挖掘目标:对京东原创 2021-04-11 15:02:38 · 48955 阅读 · 91 评论 -
数据挖掘实战—基于水色图像的水质评价
文章目录引言一、数据预处理1、图像切割2、特征提取2.1 各阶颜色矩的计算公式3、python实现二、模型构建引言 水产养殖业是国民经济的一个重要组成部分,水域内污染物的检测与评价非常重要。在水质的检测方面,数字图像处理技术是基于计算机视觉,以专家经验为基础,来对池塘水色进行优劣分级,以实现对池塘水色的准确快速判别。本文使用拍摄的池塘水样图片数据,结合图像切割和特征提取技术,使用决策树算法对水质进行预测,以辅助生产人员对水质状况进行判断。定义数据挖掘目标:对水样图片进行切割,提取水样图片中的特征原创 2021-04-08 17:45:09 · 8369 阅读 · 6 评论 -
数据挖掘实战—商品零售购物篮分析
文章目录引言一、数据探索性分析1.数据质量分析1.1 缺失值分析1.2 异常值分析1.3 重复数据分析2.数据特征分析2.1 描述性统计分析2.2 分布分析引言 购物篮分析是通过发现顾客在一次购买行为中放入购物篮中不同商品之间的关联,研究顾客的购买行为,从而辅助零售企业制定营销策略的一种数据分析方法。本文使用Apriori关联规则算法实现购物篮分析,发现超市不同商品之间的关联关系,并根据商品之间的关联规则制定销售策略。定义数据挖掘目标如下:构建零售商品的Apriori关联规则模型,分析商品之间的关原创 2021-04-07 23:34:36 · 29049 阅读 · 29 评论 -
数据挖掘实战—航空公司客户价值分析
文章目录引言一、数据探索分析(EDA)1.数据质量分析1.1 缺失值分析1.2 异常值分析1.3 重复数据分析2.数据特征分析2.1 描述性统计分析2.2 分布分析2.2.1 客户基本信息分布分析引言 企业在面向客户制定运营策略与营销策略时,希望针对不同的客户推行不同的策略,实现精准化运营。通过客户分类,对客户群体进行细分,区分出低价值客户与高价值客户,对不同的客户群体开展不同的个性化服务,将有限的资源合理地分配给不同价值的客户,从而实现效益(利润)最大化。本文将使用航空公司客户数据,结合RFM模型,原创 2021-04-06 19:48:01 · 26582 阅读 · 32 评论 -
数据挖掘实战—财政收入影响因素分析及预测
文章目录引言一、数据探索1.数据质量分析1.1 缺失值分析1.2 异常点分析—箱型图分析1.3 重复数据分析2.数据特征分析2.1 描述性统计分析2.2 分布分析2.3 相关性分析二、数据预处理引言 本文运用数据挖掘技术对市财政收入进行分析,挖掘其中的隐藏的运行模式,并对未来两年的财政收入进行预测,希望能够帮助政府合理地控制财政收支,优化财政建设,为制定相关决策提供依据。定义数据挖掘目标如下:分析、识别影响地方财政收入的关键属性预测2014年和2015年的财政收入本文数据挖掘主要包括以下步骤原创 2021-04-05 16:12:31 · 15761 阅读 · 10 评论 -
数据挖掘实战—餐饮行业的数据挖掘之挖掘建模
文章目录引言一、分类与预测1.常用的分类与预测算法2. 回归分析3.决策树4.人工神经网络二、聚类分析1.常用的聚类分析算法2.K-Means聚类算法2.1 算法过程2.2 数据类型与相似性的度量3. 目标函数3.消费行为特征分析本文参考《python数据分析与挖掘实战》数据集链接,密码1234《python数据分析与挖掘实战》pdf链接,密码1234数据挖掘实战—餐饮行业的数据挖掘之数据探索(EDA)数据挖掘实战—餐饮行业的数据挖掘之数据预处理引言 经过数据探索与数据预处理,我们得原创 2021-04-03 11:20:45 · 6670 阅读 · 15 评论 -
数据挖掘实战—餐饮行业的数据挖掘之数据预处理
文章目录引言一、数据清洗1.缺失值处理1.1 拉格朗日插值法1.2牛顿差值法2.异常值的处理二、数据集成1.实体识别2.冗余属性识别3.数据变换3.1 简单函数变换3.2 规范化3.2.1 最小-最大规范化3.2.2 零-均值规范化(标准化)3.2.3 小数定标规范化3.3 连续属性离散化3.3.1 离散化方法4.属性构造5.小波变换本文参考《python数据分析与挖掘实战》数据集链接,密码1234《python数据分析与挖掘实战》pdf链接,密码1234引言 数据挖掘过程中,海量的数据原创 2021-03-31 14:59:40 · 6292 阅读 · 3 评论 -
数据挖掘实战—餐饮行业的数据挖掘之数据探索(EDA)
文章目录引言一、前期准备1.目标定义与任务理解二、数据采集与抽样三、数据探索1.数据质量分析1.1缺失值分析本文参考《python数据分析与挖掘实战》引言 数据挖掘的基本任务包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。 对于餐饮企业来说,数据挖掘的基本任务就是从餐饮企业采集各类菜品销量、成本单价、会员消费、促销活动等内部数据,以及天气、节假日、竞争对手及周边商业氛围等外部数据,利用数据挖掘手段,实现菜品只原创 2021-03-30 10:52:02 · 8932 阅读 · 12 评论 -
数据预处理与特征工程—6.Kaggle房价预测中数据预处理与特征工程
文章目录引言一、数据预处理1.数据集的基本信息2.缺失值统计及可视化3.变量分析3.1目标变量的分析3.2分析目标变量与类别型变量的关系3.3 分析目标变量与连续型变量的关系3.4数据变换3.4.1目标变量3.4.2 连续变量采用box-cox变换3.5线性与多重共线性分析4.填充缺失值二、特征工程1.特征组合2.增加特征3.特征选择4.编码引言 以Kaggle房价回归预测为例,来叙述回归问题中数据预处理与特征工程的一般流程,这是参考公开notebook的,觉得人家写的很条理,不像自己的都拼西凑。刚买原创 2021-03-26 16:09:15 · 1238 阅读 · 0 评论 -
数据挖掘项目实战—Kaggle入门竞赛:房价预测之EDA与特征工程
文章目录一、解决高维数据分类/回归问题1.案例1:Kaggle竞赛—房价预测二、非标准数据处理1.文本处理2.图片处理3.视频处理一、解决高维数据分类/回归问题1.案例1:Kaggle竞赛—房价预测 这是一个高维数据回归问题,依据一个房子的全方位信息,包括面积、地段、环境等预测出房子的价格。房价预测网址x:[房源信息]y:房价二、非标准数据处理1.文本处理2.图片处理3.视频处理...原创 2021-03-23 10:53:36 · 1591 阅读 · 0 评论 -
金融评分卡项目—9.违约预测模型的后续工作
文章目录一、评分卡分数计算1.分数的分级二、模型的验证与监控1.模型的验证2.模型的监控三、评分卡的其他细节1.实时计算2.非实时计算3.拒绝推断四、申请评分卡的使用1.授信额度2.利率定价金融评分卡项目—6.互联网金融业贷款申请评分卡介绍金融评分卡项目—7.申请评分卡中的数据预处理和特征衍生金融评分卡项目—8.逻辑回归模型在申请评分卡中的应用一、评分卡分数计算 评分卡模型用分数衡量逾期率的大小。易推出p(违约概率)与score成反比PDO证明:1.分数的分级 在评级模原创 2021-03-13 22:10:58 · 1111 阅读 · 0 评论 -
金融评分卡项目—8.逻辑回归模型在申请评分卡中的应用
文章目录引言一、逻辑回归概述二、逻辑回归中的变量选择1.LASSO回归2.逐步回归法3.随机森林法(RF)4.挑选变量总结三、带权重的逻辑回归模型四、代码实现引言 一、逻辑回归概述 从概率的角度来看:“逾期”是一个随机事件,可以用伯努利分布来刻画它的随机性。伯努利分布是一种离散的分布,用于表示0-1型事件发生的概率。在上面的对数似然函数估计中,默认每一个样本的p是相同的,但是在申请评分卡模型中,不同申请人,逾期的概率是不同的。我们需要做的是针对不同的逾期概率区分出好样本与坏样本。p=原创 2021-03-12 22:47:06 · 1191 阅读 · 0 评论 -
金融评分卡项目—7.申请评分卡中的数据预处理和特征衍生
文章目录一、构建信用风险类型的特征1.需要衍生的信息—表12.需要衍生的信息—表23.数据清洗二、特征的分箱1.分箱的方法2.监督式分箱法:Best-KS3.卡方分箱法—ChiMerge4.无监督分箱方法三、WOE编码1.计算公式2.WOE编码的意义四、代码一、构建信用风险类型的特征 将信息度比较分散的特征综合起来变成信息度比较高的特征。已经加工成型的信息表—Master,该表是人维度的信息idx:每一笔贷款的unique keyUserInfo_*:借款人特征字段WeblogInfo_*原创 2021-03-11 13:13:14 · 1705 阅读 · 0 评论 -
金融评分卡项目—6.互联网金融业贷款申请评分卡介绍
文章目录一、信用风险和评分卡模型的基本概念1.信用风险的概念2.评分卡的概念3.评分卡模型的开发步骤4.评分卡开发的常用模型5.模型监控指标二、申请评分卡在互联网金融业的重要性和特性三、贷款申请环节的数据介绍和描述1.申请评分卡的常用特征2.数据介绍四、非平衡样本问题的定义和解决办法1.非平衡样本的解决办法一、信用风险和评分卡模型的基本概念1.信用风险的概念 交易对手未能履行约定契约中的义务而造成经济损失的风险,即受信人不能履行还本付息的责任而使授信人的预期收益与实际收益发生偏离的可能性,它是金融风原创 2021-03-07 16:35:30 · 1488 阅读 · 0 评论 -
金融评分卡项目—5.神经网络模型在银行业客户流失预警模型中的应用—MLP
文章目录一、神经网络模型概述1.ANN的类型2.感知机模型二、神经网络在流失预警模型中的应用1.数据预处理2.参数设置3.代码部分一、神经网络模型概述 人工神经网络(ANN),它的基本特点是试图模仿大脑的神经元之间传递、处理信息的模式。其具有以下两个特性:每个神经元通过激活函数(非线性变换)来处理来自其他相邻神经元的加权输入值。神经元之间信息信息传递的强度,用权重来定义,神经网络训练就是不断的调整权重。1.ANN的类型 按照网络连接的拓扑结构,神经网络可以分为前向网络和反馈网络。前向原创 2021-03-06 20:54:53 · 1598 阅读 · 0 评论 -
金融评分卡项目—4.GBDT模型在流失预警模型中的应用
文章目录一、GBDT模型介绍1.该案例GBDT结构2.GBDT常用参数二、分类器性能指标—AUC三、GBDT在流失预警模型中的应用1.调参过程2.变量重要性一、GBDT模型介绍 梯度提升树是一个集成模型,可用于分类、回归与排序。GBDT的核心在于累加所有树的结果作为最终结果,GBDT可用于分类,并不代表是累加所有分类树的结果。GBDT中的树都是回归树(利用平方误差最小化准则,进行特征选择,生成二叉树),不是分类树,这点对理解GBDT相当重要 梯度提升树,当损失函数是平方损失时,下一棵树拟合的是上一原创 2021-03-05 22:54:49 · 1210 阅读 · 0 评论 -
金融评分卡项目—3.流失预警模型中的数据预处理与特征衍生
文章目录引言一、极端值的处理1.极端值(异常值)监测的重要性2.极端值的处理3.极端值检测的方式—3σ准则二、缺失值的处理1.缺失值的种类2.缺失值的处理方法3.连续变量缺失值的处理4.类别型变量缺失值的处理三、特殊变量的处理1.类别变量2.日期/时间型变量四、构建流失行为的特征1.内部数据2.外部数据引言 以下部分完整代码见Github:https://github.com/Libra-1023/data-mining/blob/master/Bank_customer_churn/outlier_原创 2021-03-04 22:12:21 · 845 阅读 · 2 评论 -
金融评分卡项目—2.银行客户流失预警模型介绍(单因子与多因子分析)
文章目录引言一、银行业客户群体与产品的类别二、客户流失预警模型的业务意义三、数据介绍与描述1.单因子分析之连续变量2.单因子分析之类别变量3.多因子分析引言下面使用的是jupyter notebook,完整代码解析见Github:https://github.com/Libra-1023/data-mining/blob/master/Bank_customer_churn/Bank_customer_churn_EDA.ipynb一、银行业客户群体与产品的类别 银行的客户总体上可分为个人客户与公原创 2021-03-04 10:34:31 · 3952 阅读 · 2 评论 -
金融评分卡项目—1.数据分析基础知识
文章目录引言一、数据分析的基本概念1.数据分析在具体业务中的使用环境2.数据分析的目的3.数据获取的途径4.数据清洗5.数据描述二、数据可视化三、数据分析常用模型1.线性回归2.树模型3.支持向量机4.神经网络5.聚类6.主成分分析7.因子分析8.半监督学习引言 这一篇没有什么干货,主要是框架一、数据分析的基本概念 针对特定问题,运用适当学科知识从数据中提炼信息,形成结论。数理知识基础—统计学方面基本知识数据获取、加工能力行业知识数据分析与数据挖掘的区别:数据分析指对历史数据进行原创 2021-03-02 20:29:49 · 609 阅读 · 0 评论