
数据挖掘
文章平均质量分 86
冰阔落
Stay hungry, Stay foolish, Stop when you are perfect.
展开
-
【Python】开启Pandas进阶:图解Pandas透视表、交叉表
aggfunc是一个很灵活的参数,它是用来指定我们汇总想用哪种函数,默认是均值mean,我们也可以使用求和sum、最值max等。这个网上非常流行的一张图解Pandas透视表函数的图形,它利用一份简单的数据,清晰明了地讲解了pivot_table函数的每个参数的含义,保存备用!下面是在Excel表格中使用消费数据制作的透视表(部分数据截图),我们统计的是不同性别不同日期下的消费金额和小费,同时还显示了总计的数据。透视表的制作灵活性高,可以随意定制我们想要的的计算统计要求,一般在制作报表神器的时候常用。转载 2023-07-27 15:41:11 · 746 阅读 · 0 评论 -
最实用的数据分析模型——帕累托,手把手教你制作!
很多人都知道二八定理,即20%的人掌握着80%的财富。源出处是80/20帕累托法则,很有名的ABC分类法可以说是该法则的衍生。比如一共有100件商品,10件商品占销售总额的70%,20件商品占销售总额的20%,还有70件商品仅占销售总额的10%。于是你可以按照70%,20%,10%的销售额比重把产品分为ABC三类,然后把重点的管理资源放在A,把较少的资源分配给C或者砍掉部分C商品,以达到资源管理的最优状态。比如下图实例。转载 2023-01-12 16:14:11 · 946 阅读 · 0 评论 -
数据分析模型,你会用多少种?建议你用这28种商业模型和方法武装自己
我们所说的“模型”就是这样一个体系,实际上模型是指对于某个问题或客观事物、规律进行抽象后的一种形式化表达方式,模型分类有很多种,有数学模型、程序模型、逻辑模型、方法模型、数据模型、算法模型、管理模型(来自"MBA智库百科"),而我们这里所说的是“模型”不属于任何一类,对能纳入到数据分析决策中的都是我们需要的模型,主要包括数学模型、数据模型、算法模型、管理模型中的具体模型。这个矩阵可以更细化的说明产品所在行业的状况(比如波士顿矩阵中,偏向于现金牛的瘦狗中的产品,并不一定制定撤退战略就是妥善的。转载 2023-01-12 15:03:40 · 1228 阅读 · 0 评论 -
箱形图为什么能检测异常值
一般k=1.5是一个经验值,计算出的是中度异常的范围,K=3计算出的是极度异常的范围概率的四等分即0.25,0.5,0.75,概率为0.25对应的自变量x值为0.675西格玛。当k=1.5下限:= -2.7σ上限:= 2.7σ当k=2下限:= -3.375σ上限:= 3.375σ。转载 2023-01-04 10:23:45 · 1073 阅读 · 0 评论 -
pandas时间序列之 pd.to_datetime()
还有更加偷懒的办法,假如整理数据时遇到了大量的时间需要输入,比如2020-11-11 00:00:00,输入-和:太浪费时间了,而且时间之间没有什么变化规律可循,这种情况下可以直接输入20201111000000进行记录,之后再借助pd.to_datetime()解析,省时省力一步到位。unit=None,#单位str, default 'ns',可以是(D,s,ms,us,ns)origin='unix',#指定从什么时间开始,默认为19700101。不指定时间则默认从19700101开始。原创 2022-08-25 10:19:58 · 12945 阅读 · 0 评论 -
在线教育平台edx运营情况数据分析报告——SQL&Tableau
MIT大学的ComputerScience主题的课程总时长平均值为245.8h,Science,Technology,Engineering,andMathematics主题的课程总时长平均值为84.8h,Government,Health,andSocialScience主题的课程总时长平均值为156.1h,Humanities,History,Design,Religion,andEducation主题的课程总时长平均值为62.6h。其中39、40、53属于异常值。...转载 2022-07-29 15:04:14 · 2167 阅读 · 0 评论 -
双独立样本检验——Python(ABtest)
随机抽取实验者并将其分成2组,每组25人,A组使用键盘布局A,B组使用键盘布局B。两组样本所代表的总体平均值差值置信区间,95%置信水平为CI=[-4.07,-1.37],即使用A键盘的错字数量比使用B键盘平均约少2-4个。数据记录在CSV文件中,A列是使用键盘布局A打错字的数量,B列是使用键盘布局B打错字的数量。综上,备选假设成立即两种键盘布局的用户体验有差异,且A版本键盘布局的用户体验更好。两款布局不一样的手机键盘(A版本,B版本),想知道哪种键盘布局的用户体验更好。...转载 2022-07-28 16:39:44 · 2609 阅读 · 1 评论 -
基于RFM模型的用户价值分析——Python&Tableau
RFM模型是衡量客户价值和客户创利能力的重要工具和手段。R(Recency)——最近日期或最新日期即客户最近一次消费日期距分析日的时间间隔。最近一次消费的时间间隔是维系顾客的一个重要指标。根据R值越小越好的标准,间隔时间越短越有可能再次购买,按短到长平均分成5个等级,依次为R5-R1。F(Frequency)——消费频率即单位期间内的消费次数。在单位期间内的消费频率越高越好。消费次数多的客户通常是满意度高和忠诚度高的的客户,这部分客户是企业必须维系好的客户。M(Monetray)——消费总额。......转载 2022-07-28 13:01:29 · 1183 阅读 · 0 评论 -
RFM模型指标构建——SQL
本篇文章主要是实现用SQL语句构建RFM模型指标,为文章‘基于RFM模型的用户价值分析——Python&Tableau’第六部分的SQL版本。将f1、消费金额字段类型修改为整型,将交易日期字段类型修改为日期型;...转载 2022-07-28 09:25:27 · 1110 阅读 · 0 评论 -
加权随机采样 (Weighted Random Sampling)
一个集合里有n个元素,每个元素有不同的权重,现在要不放回地随机抽取m个元素,每个元素被抽中的概率为元素的权重占总权重的比例。要怎么做呢?简单的解法现在考虑只抽取一个元素,假设权重之和为1。我们可以从[0, 1]中随机得到一个权重,假设为0.71,而后从第一个元素开始,不断累加它们的权重,直到有一个元素的累加权重包含0.71,则选取该元素。下面是个示意图:要选取 m 个元素,则可以按上面的方法先选取一个,将该元素从集合中去除,再反复按上面的方法抽取剩余的元素。这种方法的...转载 2021-01-28 14:20:27 · 6835 阅读 · 0 评论 -
如何知道国外流行哪款 App (榜单)
作为跨境的从业人员,知道目的国家的消费者使用什么样的社交软件、购物软件非常重要。了解了老外经常使用的社交软件,就可以更深入地了解目标用户的喜好,还可以养号做推广。了解老外经常使用的购物软件,可以学习借鉴同行产品文案、产品详细等信息,还能从评论中寻找机会。在本篇文章中,主要推荐4款全球App排行工具,都是免费的。 App之间的数据可以交叉对比。经常看看,或许能发现一些惊喜!!1.appannie1.1.网址:https://www.appannie.com/cn/apps/ios/top.转载 2020-12-04 11:55:56 · 3481 阅读 · 0 评论 -
运营必知的基础数据之用户付费
之前讲的用户新增、用户活跃数据相当于基础设施,有了这些基础设施后,才可以开门营业,赚取利润,而利润就是本章要说的主题:用户付费。本篇我将从以下四个方面,来讲解下用户付费方面的知识。一、用户付费的数据指标二、影响用户付费的因素三、提升用户付费的方法四、用户付费的价值一、用户付费的数据指标付费率:付费用户占活跃用户的比例。一般说的是日付费率,计算方式是当日充值人数除以...转载 2020-03-20 14:53:00 · 2024 阅读 · 0 评论 -
BAT 都在用的方法,详解 A/B 测试的那些坑!
作者|蚂蚁金服人工智能部产品经理 范磊本文首发|微信公众号 友盟数据服务 (ID:umengcom),转载请注明出处If you are not running experiments,you are probably not growing!——by Sean EllisSean Ellis 是增长黑客模型(AARRR)之父,增长黑客模型中提到的一个重要思想就是“AB实验”。...转载 2020-01-15 19:23:30 · 972 阅读 · 0 评论 -
“用户画像”从生产到应用,背后的标签逻辑是什么?
本文内容为【友盟+】首席数据架构师&数据委员会会长张金做客「极客公开课·Live 」演讲内容。文章内容包含:用户画像的核心价值,用户画像是如何生成的?常用的标签体系包括哪些?应用在哪?以及数据应用的建议和总结等。友萌君精心整理了文字+PPT版本,建议你先收藏再仔细阅读,真的是干货满满!什么是用户画像?用户画像也叫用户标签,是基于用户行为分析获得的对用户的一种认知表达,...转载 2020-01-15 14:57:39 · 3287 阅读 · 0 评论 -
数据运营入门教程
在这个数据驱动运营的时代,数据不仅是数据工程师和分析师的事情,在工作中也要求运营从业者有一定的数据分析能力,更有人说“数据分析能力是未来运营的分水岭”。从我自身角度出发,真心觉得数据能更好推动运营策略和工作的开展。但运营童鞋多是数据小白,没有编程和技术基础,那我们该怎么分析并用好数据呢?今天从运营常见的数据问题出发,希望让大家能快速地入门数据分析,让数据更好地为工作服务,别白白浪费数据的价值...转载 2020-01-10 14:34:43 · 3230 阅读 · 1 评论 -
用户增长分析——用户流失预警
1前言针对用户增长分析这个课题,本文主要从用户防流失的角度,阐述如何基于QQ社交网络数据构建用户流失预警模型,找出高潜流失用户,用于定向开展运营激活,从而有效控制用户流失风险,提升大盘用户的留存率和活跃度。本文所涉及到的分析框架和方法论等具有较强的通用性,可供有需要的同学了解参考。2分析背景“根据美国贝恩公司的调查,在商业社会中5%的客户留存率增长意味着公司利润30%的增长,而把产品卖...转载 2019-12-14 17:01:13 · 2268 阅读 · 1 评论 -
Facebook 广告定向优化的 8 种方法
我们今天要向大家介绍的是Facebook广告定向优化的8种方法您的Facebook广告定向可以进一步优化吗?您正在寻找通过Facebook广告触达理想受众的新方法吗?Facebook的新定向选项可帮助您提高Facebook广告的转化率。本文介绍了八种方法帮助您优化Facebook广告定向。1通过兴趣精准筛选相似受众(lookalike audience)如果您的博客拥有大量...转载 2019-12-13 19:13:01 · 1070 阅读 · 0 评论 -
数据分析:怎样辨别渠道作弊
有的运营人员做渠道投放,每个渠道都投放了,点击量特别高,但激活量只有个位数。也有可能点击激活数量都很高,但是留存率很低。费用都花光了,但是效果没有出来。自己做数据分析,但是却得不到结论。我们做数据分析的前提是需要拿到靠谱的数据。如果数据不准确,基于这个数据分析出来的结论是没有意义的。获取准确的数据,首先需要我们选择靠谱的统计分析平台。即便在平台靠谱的情况下,也有可能出现一些不靠谱的情况。俗...转载 2019-12-13 18:09:26 · 269 阅读 · 0 评论 -
如果你满足这些条件,请千万别来做数据分析
数据行业这几年发展迅速,出现了很多数据的工种,包括人工智能,机器学习,数据挖掘,数据分析,数据仓库,数据中台,数据流式计算等方向。我几年前入坑的数分,由于门槛低,覆盖范围广,学习可广可深,受到天南海北万众宠爱于一身。当然,我估计大家选择数据分析的真实原因,还是认为数分技术门槛低,不太需要写代码,而自己又想进...转载 2019-12-03 11:32:44 · 466 阅读 · 0 评论 -
Matplotlib及Seaborn可视化
python中常用的两个画图库是Matplotlib和Seaborn,直接pip安装即可。常玩吃鸡的小伙伴应该很熟悉雷达图,游戏结束后会出现一张评价雷达图,我们可以用Matplotlib库来制作雷达图import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.font_manager import FontPrope...转载 2019-10-30 10:06:03 · 683 阅读 · 0 评论 -
如何通俗理解 beta 分布?
作者:小杰链接:https://www.zhihu.com/question/30269898/answer/123261564来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。beta分布介绍相信大家学过统计学的都对 正态分布 二项分布 均匀分布 等等很熟悉了,但是却鲜...转载 2019-10-12 16:36:00 · 947 阅读 · 0 评论 -
新浪微博用户兴趣建模系统架构
/*作者注:这是2011年左右新浪微博个人兴趣模型的技术架构,所以你从中是看不到目前很多流行的NoSQL平台的,因为它们那时候还没出生呢,现在应该有了很大变化了,不过以新浪微博对技术的重视程度,说不定还是这套在运转也说不定@^@。*/在微博环境下,构建微博用户的个人兴趣模型是非常重要的一项工作。首先,从可行性方面而言,微博是一个用户登录后才能正常使用的应用,而且用户登录后会有阅读/发布/关注等多种...转载 2018-03-29 15:01:07 · 1181 阅读 · 0 评论 -
相似性度量
二元向量的相似性度量(每一维都少的信息量,主要是0,1等有 or 没有属性):Dice:2*|(X∩Y)|/(|X|+|Y|), *2保证∈[0,1],维数不一致时,差别大。jaccard |(X∩Y)/(X∪Y)|,交叠程度小时,值较低交叠系数:|(X∩Y)|/min{|X|,|Y}}, 互相...转载 2018-03-29 15:44:43 · 281 阅读 · 0 评论 -
dplyr:六個基本資料處理技法
摘要本文簡介如何使用 dplyr 與 base R 語法進行六個基本資料處理技法,並支持初學者先從 dplyr 開始做基本資料處理技法這個論點。論點起源在 Tidyverse:R 語言學習之旅的新起點一文中我們提到過新興的 R 語言學習路徑可以從 tidyverse 這個套件起始,而非傳統的 Base R;這個論點其實源自於 DataCamp 現任的首席資料科學家 David Robi...转载 2018-11-27 17:00:05 · 1030 阅读 · 0 评论 -
某SLG游戏公测期用户与付费分析
这次主要对某SLG游戏的用户及付费进行分析。数据来源为游戏玩家付费金额预测大赛-竞赛信息-DC竞赛一.理解数据下图为数据的部分截图:图1主要关键字有:用户ID, 注册时间, 付费金额,要塞(玩家主基地)等级,付费金额等。将数据导入到Data Frame中:import pandas as pdimport numpy as npimport matplotlib.pyplot as plt%...转载 2018-12-26 14:39:33 · 5256 阅读 · 1 评论 -
浅谈游戏数据分析---留存篇一-留存折损
留存折损—–两个不同节点的留存之间的比值,用于判断留下用户的留存情况,即真实用户的留存。 换一种维度去分析留存,不拘泥于留存的绝对值,将留存统一化,提炼客观的参考标准。常见的留存疑惑:** 我的游戏次留很好,怎么活跃涨不起来,一个月后感觉活跃有些快崩了? 我知道游戏的留存差,但不确定在那个阶段差,比正常值差多少,该怎么去调整?一、简述 在游戏的数据分析中,重点无外乎是分析: 1、...转载 2018-12-26 21:01:48 · 3641 阅读 · 0 评论 -
准确率,召回率,F1 值、ROC,AUC、mse,mape 评价指标
在机器学习、数据挖掘领域,工业界往往会根据实际的业务场景拟定相应的业务指标。本文旨在一起学习比较经典的三大类评价指标,其中第一、二类主要用于分类场景、第三类主要用于回归预测场景,基本思路是从概念公式,到优缺点,再到具体应用(分类问题,本文以二分类为例)。1.准确率P、召回率R、F1 值定义 准确率(Precision):P=TP/(TP+FP)。通俗地讲,就是预测正确的正例数据占预测为...转载 2018-04-10 20:08:00 · 680 阅读 · 0 评论 -
如何成为一名数据科学家
作者简介: 林荟,美国杜邦公司商业数据科学家,美国爱荷华州立大学博士。《套路!机器学习:北美数据科学家的私房课》作者。2017年1月至今主持美国统计协会市场营销在线数据科学讲座。个人网站:http://linhui.org/。责编:何永灿(heyc@youkuaiyun.com)本文为《程序员》原创文章,未经允许不得转载,更多精彩文章请订阅《程序员》在回答这个问题之前,希望你先转载 2017-11-20 20:35:48 · 445 阅读 · 0 评论 -
分类和回归区别
分类和回归区别在于输出变量的类型。定量输出称为回归,或者说是连续变量预测;定性输出称为分类,或着说是离散变量预测。 举个栗子:预测明天气温多少——回归问题;预测明天晴天还是阴天——分类问题。 注:定量、定型区别(举例)一个人向东走,这是定性描述。一个人向东走300米,这是定量描述。定量比定性更加精确详细。转载 2017-08-15 09:48:32 · 446 阅读 · 0 评论 -
数据挖掘关联分析中的支持度、置信度和提升度
购物篮分析购物篮数据的二元0/1表示利用关联分析的方法可以发现联系如关联规则或频繁项集。二元表示每一行对应一个事务,每列对应一个项,项用二元变量表示项在事务中出现比不出现更重要,因此项是非对称的的二元变量。项集(Itemset):包含0个或多个项的集合,如果包含k个项,则称为k-项集。事务的宽度:事务中出现的项的个数一般我们使用三个指标来度量一个关联规则转载 2017-07-29 12:41:54 · 22992 阅读 · 1 评论 -
用 WEKA 进行数据挖掘,第 1 部分: 简介和回归
转载:https://www.ibm.com/developerworks/cn/opensource/os-weka1/index.html简介什么是 数据挖掘?您会不时地问自己这个问题,因为这个主题越来越得到技术界的关注。您可能听说过像 Google 和 Yahoo! 这样的公司都在生成有关其所有用户的数十亿的数据点,您不禁疑惑,“它们要所有这些信息干什么?”您可能还会惊奇地发转载 2017-05-24 15:29:56 · 1242 阅读 · 2 评论 -
用 WEKA 进行数据挖掘,第 2 部分: 分类和群集
转载:https://www.ibm.com/developerworks/cn/opensource/os-weka2/简介在 用 WEKA 进行数据挖掘,第 1 部分:简介和回归,我介绍了数据挖掘的概念以及免费的开源软件 Waikato Environment for Knowledge Analysis(WEKA),利用它可以挖掘数据来获得趋势和模式。我还谈到了第一种数据转载 2017-05-24 17:56:10 · 604 阅读 · 1 评论 -
用 WEKA 进行数据挖掘,第 3 部分: 最近邻和服务器端库
转载:https://www.ibm.com/developerworks/cn/opensource/os-weka3/index.html简介在这个 “用 WEKA 进行数据挖掘” 系列之前的两篇文章中,我介绍了数据挖掘的概念。如果您还未曾阅读过用 WEKA 进行数据挖掘,第 1 部分:简介和回归 和 用 WEKA 进行数据挖掘,第 2 部分:分类和群集,那么请先阅转载 2017-05-24 17:57:18 · 479 阅读 · 0 评论 -
逻辑回归、决策树和支持向量机(II)
转载:http://www.youkuaiyun.com/article/2015-12-02/2826374?reload=1摘要:本文讨论了如何在逻辑回归、决策树和SVM之间做出最佳选择。结论:首先应该选择逻辑回归,然后试试决策树(随机森林)是否可以大幅度提升模型性能;特征的数量和观测样本特别多、资源和时间充足时,可使用SVM。本文是该系列的第二篇,第一篇参见: 逻辑回归 Vs 决转载 2017-05-27 11:03:43 · 2562 阅读 · 0 评论 -
浅谈游戏数据分析-留存篇二-DNU/DAU曲线
一、定义解释: DNU:指每日新增注册数; DAU:指每日活跃用户数; DOU:等于DAU-DNU,指老用户,即当天的活跃人数减去注册人数DNU/DAU,即当天注册人数除以当天的总活跃人数,该指标可以叫做活跃度指数,也可以说是用户沉淀指数;用于评估用户堆积的速度。在稳定的导入量下,DNU/DAU曲线下降得越快,表示该游戏的留存越好(DUN/DAU的值是从100%开始,不断的下降)最后会在...转载 2018-12-26 21:03:45 · 6930 阅读 · 0 评论 -
浅谈游戏数据分析---模型篇--DAU流水预估模型(回收分析预估模型)
在我们日常的运营活动中,在各个不同的运营阶段,经常需要对游戏的活跃、流水等进行预估。并且我们需要预估的不仅仅是最终的一个结果值,可能更需要的是完整的增长趋势,需要根据导入量,付费留存情况,去预测每一天的活跃、流水情况。这时候一个比较科学、简单的模型就比较关键了。本周就介绍一个笔者在工作中经常用到的一个预估模型,一个已经经过了多次优化和认证的模型。**该模型不仅仅可以预估一个游戏的流水活跃等走势...转载 2018-12-26 21:20:59 · 5827 阅读 · 1 评论 -
腾讯QQ大数据:用户增长分析——用户流失预警
1,前言:针对用户增长分析这个课题,本文主要从用户防流失的角度,阐述如何基于QQ社交网络数据构建用户流失预警模型,找出高潜流失用户,用于定向开展运营激活,从而有效控制用户流失风险,提升大盘用户的留存率和活跃度。本文所涉及到的分析框架和方法论等具有较强的通用性,可供有需要的同学了解参考。2,分析背景“根据美国贝恩公司的调查,在商业社会中5%的客户留存率增长意味着公司利润30%的增长,而把产品...转载 2019-07-17 11:53:24 · 9161 阅读 · 0 评论 -
使用Python+R做用户购买路径分析
1、需求:在用户行为分析中重要的一环是对用户行为路径的分析,如先访问什么再访问什、现购买什么再购买什么。找到用户的访问或购买路径,有助于我们对商业流程的理解,也可以帮助我们改善和优化企业产品。2、题设:假设我们是一家家电电商网站,拥有所有客户的购买每种家电的详细记录(包括客户id,购买产品,购买日期)。客户购买记录,数据全是瞎编的我们希望通过这个数据...转载 2019-06-10 11:12:20 · 1335 阅读 · 0 评论 -
好看的皮囊千篇一律,内涵的“可视化大屏”万里挑一
今天我想来diss市面上各种花里胡哨、出其不意的可视化。 &nb...转载 2019-05-31 17:03:58 · 400 阅读 · 0 评论 -
手把手教你做最实用的数据分析模板——帕累托法则
谨以此文纪念意大利经济学家帕累托。 帕累托与ABC分类法很多人都知道80/20帕累托法则(20%的人掌握着80%的财富),而ABC分类法可以说是该法则的衍生,目的是把握关键,分清主次。 比如一共有100件商品,10件商品占销售总额的70%;20件商品占销售总额的20%;还有70件商品仅占销售总额的10%。 于是你...转载 2019-05-31 15:11:33 · 589 阅读 · 0 评论