
数据分析与挖掘案例
文章平均质量分 88
mx丶姜小辉
2017开始从事数据挖掘分析,工商管理硕士(MBA),应用统计学学士,数据分析挖掘专业,擅长利用Python,R,SPSS等数据挖掘建模工具,熟悉Oracle、MySql等关系型数据库系统;擅长分类与回归、决策树、神经网络、协同过滤、深度学习等算法原理及应用。
表达能力强,曾负责全国高校数据挖掘分析与机器学习技术应用实战师资研修班培训,有高校及师资、企业培训经验。
参与过多本大数据相关图书的编写工作,编写《Python编程基础》,《R语言编程基础》等图书专著。
丰富的大数据域的信息系统管理经验,包括大数据采集管控平台、交互分析平台、用户画像与营销推荐平台、大数据BI自助分析平台、大屏展示系统。
展开
-
广电大数据用户画像及营销推荐策略(四)——Python实现
本次大数据项目数据及分析均做脱敏化和保密化,主要分享思路体系,全程用Python实现,数据和代码均不提供。如有建议欢迎讨论!原创 2022-06-29 15:40:17 · 3518 阅读 · 3 评论 -
广电大数据用户画像及营销推荐策略(三)——Python实现
本次大数据项目数据及分析均做脱敏化和保密化,主要分享思路体系,全程用Python实现,数据和代码均不提供。如有建议欢迎讨论!3、特征工程 特征工程大体上可以分为三个方面,一是特征构造,二是特征选择或特征提取,三是特征变换。特征构造比较麻烦,需要一定的经验。特征提取与特征选择都是为了从原始特征中找出最有效的特征。它们之间的区别是特征提取强调通过特征转换的方式得到一组具有明显物理或统计意义的特征;而特征选择是从特征集合中挑选一组具有明显物理或统计意义的特征子集。两者都能帮助减少特征的维度、数....原创 2021-11-10 16:37:54 · 6495 阅读 · 2 评论 -
广电大数据用户画像及营销推荐策略(二)——Python实现
本次大数据项目数据及分析均做脱敏化和保密化,主要分享思路体系,全程用Python实现,数据和代码均不提供。如有建议欢迎讨论!2、数据准备 由于数据中用户收视行为信息数据记录很大,如果对数据不进行分类处理,对所有记录直接采用推荐系统进行推荐,这样会存在以下问题。第一,数据量太大意味着物品数与用户数很多,在模型构建用户与物品的稀疏矩阵时,出现设备内存空间不够的情况,并且模型计算消耗大量的时间。第二,用户区别很大,不同的用户关注信息不一样,因此即使能够得到推荐结果,其推荐效果也会不好。为了避免...原创 2021-02-20 11:49:08 · 4760 阅读 · 0 评论 -
广电大数据用户画像及营销推荐策略(一)——Python实现
本次大数据项目数据及分析均做脱敏化和保密化,主要分享思路体系,全程用Python实现,数据和代码均不提供。如有建议欢迎讨论!前言 “一切业务数据化,一切数据业务化”,回顾几十年的中国企业信息化发展历程,就是“业务数据化”的过程——企业持续在IT方面进行投入和建设,不断将发展过程中业务和经营管理端的各种能力以数据形态沉淀下来。而接下来的“数据业务化”则是将已经成为资产的数据作为生产资料 数据中台作为整个企业各个业务所需数据服务的提供方,通过自身的平台能力和业务对数据的不断滋...原创 2021-02-19 17:43:43 · 5284 阅读 · 1 评论 -
2019年用户流失分析(五)——Python实现
5、 模型应用 选择4月份为正常状态的电视用户,计算他们的收视时长、收视在线天数、距最近一次收视时间、入网时长、用户主动办理次数和投诉与报障次数6个特征指标,利用构建好的用户流失模型预测5月份的用户流失情况。5.1 离网倾向阈值 在4月份为正常状态的电视用户数为98201。5月份真实流失的电视用户数为1391,流失率为1.40%。此时通过构建好的预测模型预测之后...原创 2019-11-19 09:33:12 · 1008 阅读 · 1 评论 -
2019年用户流失分析(四)——Python实现
(3)、随机森林模型 随机森林属于一种集成算法,指的是利用多棵树对样本进行训练并预测的一种分类器。随机森林的混淆矩阵如表格 6所示。表格 6 混淆矩阵表 predictedclass 类=0 类=1 actualclass 类=0 545(T...原创 2019-10-16 17:27:02 · 1360 阅读 · 1 评论 -
2019年用户流失分析(三)——Python实现
(2)、决策树分类算法模型数据划分 在分类算法建模过程中与聚类算法稍有不同。聚类指事先并不知道任何样本的类别标号,实现的目标是通过某种算法来把一组未知类别的样本划分成若干类别,把相似的东西聚到一起,在机器学习中被称作无监督学习,这时不需要数据划分。而在分类算法中,根据已知的一些样本(包括属性与类标号)来得到分类模型(即得到样本属性与类标号之间的函数),然后通过此目标函数来对只包...原创 2019-09-12 09:26:15 · 2654 阅读 · 1 评论 -
2019年用户流失分析(二)——Python实现
3.3 工单情况分析(舆情分析) 13241个用户一年内的工单数为8480条,里面有用户投诉与报障的具体内容信息。我们可以对投诉与报障内容进行情感分析,利用LDA主题模型提取内容关键信息,了解用户的需求、意见,提出改善的建议。 有价值的内容信息数据需要通过中文分词、停用词处理、语义歧义处理、情感打分、情感修正等等一系列的文本处理。(本次使用的情感词表是2007年10...原创 2019-08-09 11:15:37 · 1601 阅读 · 0 评论 -
2019年用户流失分析(一)——Python实现
在用户流失调研中,以往的用户流失标准定义为用户没有再进行续费的时候(即使催缴信息通知后),而现实中用户未必是消费殆尽时才流失,而是已经不再活跃的时候就已经流失了,这样的初始标准延迟了我们对流失用户进行干预的时间。所以,流失用户的标准应该定义为在一段时间内未进行收视、业务办理等行为的用户。1、数据选取 本次分析的对象是2019年3月份用户状态变为欠费停机、主动停机、...原创 2019-07-19 11:21:52 · 2499 阅读 · 2 评论 -
用户复通率(用户回访率)
本人最近在做广电行业的用户流失分析,在提取数据时遇到一个问题:需要提取多久时间之内的用户相关数据做分析呢?在本公司内系统已经有相关的离网、入网、复通等等行为的用户数量。现在需要定下时间阈值,并有数据支持,下面看当时我的处理方式(由于私密问题数据不会显示出来)。 流失用户应该是在一段时间内未进行关键操作行为的用户。此时定位本次用户流失分析的两个标准:选择关键行为...原创 2019-05-17 17:26:21 · 4143 阅读 · 0 评论 -
项目总结之用户画像构造
一、建立标签库 给用户贴标签是大数据营销中常用的做法,所谓“标签”,就是浓缩精炼的、带有特定含义的一系列词语,用于描述真实的用户自身带有的属性特征,方便企业做数据的统计分析。借助用户标签,企业可实现差异化推荐、精细化画像等精准营销工作。 标签库的建立方式主要有如下三点。标签库建立的过程中,是以树状结构的形式向外辐射,尽量遵循MECE原则:标签之间相互独立、完全穷...原创 2018-08-23 10:24:57 · 2768 阅读 · 0 评论 -
交通事故致因分析
1、挖掘背景 随着时代的发展,我们的出行变的越来越便利的同时,也带来的越发严重的交通安全事故。我国的经济高速发展,全国汽车保有量,交通道路,人口等都在不断的增加,同时道路交通安全事故也进入高发期。分析事故发生的原因,找到事故发生的内在规律,对交通部门进行道路交通的改进和提高民众的出行安全具有重大意义。 本次提供了交通事故相关的多维度数据,通过对事故类型、事故人员、事...原创 2018-07-10 14:26:55 · 9673 阅读 · 11 评论