- 博客(44)
- 收藏
- 关注

原创 【数据分析实战经验】如何写游戏体验报告(以最强蜗牛为例)
说明:以下部分数据来源网络,体验报告属于个人观点,侵删PART ONE 产品概况营收能力:2020年6月23日上线,首日登顶iOS免费榜榜首,上线后连续霸榜8天iOS免费榜,畅销榜也常在前五之列,上线10天iOS流水超1.04亿,首月拿到4.3亿流水,4个月累计流水超10亿 --《伽马数据|七麦数据》MAU.
2021-05-11 13:51:09
2593
4

原创 【数据分析实战经验】预测真实员工离职率(涉及模型:随机森林、逻辑回归,数据量:28211,工具:python)
1、地区划分0、未知1、华北五省二市——北京市、天津市、河北省、河南省、内蒙古自治区、山西省、山东省2、华东五省一市——上海市、江苏省、江西省、安徽省、浙江省、福建省3、东北三省——黑龙江省、吉林省、辽宁省4、西北五省——陕西省、甘肃省、宁夏回族自治区、青海省、新疆维吾尔自治区5、西南四省一市——四川省、重庆市、贵州省、云南省、西藏自治区6、华南五省——湖北省、湖南省、广东省、广西省、海南省7、港澳台及其他数据清洗异常值共计25人,删去...
2020-08-09 23:12:38
5632
21

原创 【数据分析实战经验】航空公司客户价值分析 LRMFC 模型(K-means聚类,工具python)
这两天在看张良均、王路等人出版的书《python数据分析与挖掘实战》,前面整理了一篇笔记,现在就实战一下吧。数据量:62988,共有44个客户属性,其中包含了会员卡号、入会时间、性别、年龄、会员卡级别、在观测窗口内的飞行公里数、飞行时间等第一步:数据探索拿到数据集,先进行整体上的观察import pandas as pdimport numpy as npdf = pd.read_csv( 'air_data.csv', encoding = 'utf-8') #读取原始数据,指定UTF-8编
2020-05-31 19:22:23
6314
52

原创 【数据分析实战经验】淘宝用户行为分析①-AARRR、RMF模型(数据量:百万级,工具mysql)
D:\> cd change\mysql-8.0.19-winx64\binD:\change\mysql-8.0.19-winx64\bin>mysql --local-infile -u root -pmysql> load data local infile'D:/xcw/work/数据面试/电商平台用户分析/UserBehavior.csv' into table taobao.xwfx -> fields terminated by ',';3835331数
2020-05-24 11:23:57
4437
2

原创 【数据分析实战经验】职工离职情况分析①(python+powerbi)
公司离职职工浅析前言:员工离职,似乎已经成为每一家企业都要面对的问题,特别是优秀人才离职的问题会给公司带来损失。本文主要是对我的公司(进行离职人员的分析,后期希望通过建立离职模型,提前找出预测结果显示要离职的员工,提出挽留建议。截止3月31日,目前在职员工共计20778人,签订合同后离职的人数是7263人,整体离职率是在25.90%。其中福州分公司离职率最高,达到49.8%,杭州次之,在27....
2020-04-27 22:33:26
5087
9
原创 【读书笔记】0423 近期思考
近期思考这个系列,是把我在工作时、上下班的地铁上,所思所想所惑之处写出来。一、用户增长方法论用户增长两种:一种是量级的增长,一种是比率的增长方法论体系:1、 三大部分:大环境、用户、产品1.1 大环境涉及社会形势,顺势而为是基础1.2 用户是增长的核心对象1.3 产品优化是增长的体现形式,数据驱动是方式重点讲讲用户1、用户价值分层(RMF)关注忠诚核心用户,保持一般价值客户,挽留低价值客户2、方式方法2.1 花钱的2.1.1 市场投放,哪些渠道,投放的策略是什么,保持单个用.
2021-04-25 16:28:05
404
原创 【数据分析实战经验】一文梳理各类型玩法的分析要点 & 有效结论
入职以来,大大小小各类别的玩法都进行过分析,轮次类、PVP类、抽奖类、纯付费、2048、消消乐、大富翁等等,现在就抽空整理一下游戏内的玩法分析该怎么做,都看哪些指标,怎么得出有效结论。尽可能地得出普适性的结论,普适性的分析框架-----本文的目的日常系统功能类分析- 分析要点:1、功能使用率(广度)、解锁率(广度)、观察时间范围内功能使用频次(深度)、2、榜一奖励的获得人数占比(广度)、N次获得榜一的时间差值(把控奖励投放)- 有效结论1、功能使用率低,建议增加红点指引,改进主动触达指引.
2021-04-08 18:06:09
634
1
原创 【数据分析实战经验】0323近期思考
近期思考这个系列,是把我在工作时、上下班的地铁上,所思所想所惑之处,自问自答的写出来。虽然不知道未来的路在哪里,还是要给自己信心吧,相信自己比随波逐流更难得可贵吧About interview面试腾讯有感:作为数据分析师,理性和逻辑一定在感性之上。1. 细分垂直行业的理解,要够。—可以查询艾瑞咨询、伽马数据等等平台伽马数据Q: 举个例子:谈谈你对短视频行业的了解。A: 从用户定位、产品量级、优势/缺点、下一步发展 入手2. Q:如何搭建APP的指标体系A:一般通用项, 流量、内容、社.
2021-03-23 16:13:32
275
2
原创 【数据分析实战经验】整理半年来所学数据分析的技术栈知识点及面试关键点
life is fucking movieEXCEL篇sql篇PYTHON篇统计学篇业务相关机器学习篇大数据篇(此部分可忽略,没什么干货)面试相关
2021-02-28 16:13:17
509
3
原创 【读书笔记】github 课程-Python-100-Days
骆昊大佬的教程链接day2:计算机的硬件系统通常由五大部件构成,包括:运算器、控制器、存储器、输入设备和输出设备。其中,运算器和控制器放在一起就是我们通常所说的中央处理器,它的功能是执行各种运算和控制指令以及处理计算机软件中的数据。在程序设计中,变量是一种存储数据的载体。计算机中的变量是实际存在的数据或者说是存储器中存储数据的一块内存空间,变量的值可以被读取和修改,这是所有计算和控制的基础。变量命名规则:由字母、数字和下划线构成,数字不能开头比较运算符有的地方也称为关系运算符,包括==、!=、&
2021-02-15 12:37:53
725
原创 【读书笔记】数据驱动业务--talkindata
【数据本质】数据是信息的载体,【数据分类】用户反馈数据-产品运营数据-用户行为数据-业务常规数据【数据的价值】数据的本质是为了消除不确定性,数据可以提高正确决策的概率【怎么才能把数据用好】1)指标固定,维度固定2)实时性差3)分析深度不足4)分析模型有限【案例1-定位留存下跌】第一个:看渠道的流失率第二个:各等级的流失率第三个:按主线任务排查第四个:发现没有获得某道具是未完成主线认为原因第五个:发现没有去地图N是没有获得道具X的原因第六个:发现是产品印度做得不够明晰,导致用
2021-02-02 22:34:42
296
原创 【数据分析实战经验】0118近期思考
埋点是什么,记录用户行为,返回关键数据的点位。埋点案分为三块,业务需求及分析需求,中间表,点位及携带信息写埋点的流程,先想好主次需求,需求对应的维度及指标
2021-01-13 19:03:02
226
原创 【读书笔记】mysql 窗口函数总结
什么是窗口函数?窗口函数,也叫OLAP函数(Online Anallytical Processing,联机分析处理),可以对数据库数据进行实时分析处理。窗口函数有什么用?实际工作中,我们会常常遇到group by 后根据聚合起来的每组进行排名,求topN,累加等等问题基本语法<窗口函数>over (partition by <需要在哪类组别内比较的列名>order by <用于排序的列名>详解1、专用窗口函数 rank、dense_rank、ro
2020-12-20 18:06:33
363
原创 【数据分析实战经验】入职5-12周 技术小结
一、EXCEL宏:简单来说,Excel 宏指的是,使用 Excel 内置的编程语言 VBA (Visual Basic for Applications)写的,能在 Excel 环境里运行的一系列操作指令。我们在 Excel里手动进行的几乎所有操作,宏(VBA)也都可以操作。主要场景:用来解决大量多表重复操作主要步骤:开启宏-设置宏的安全性-判断使不使用相对引用-选择起始位置或区域-录制宏-设置快捷键-选择待使用的位置或区域-使用宏怎么判断使不使用相对引用:参考这个文章。https://www.
2020-11-22 17:16:04
657
原创 【数据分析实战经验】入职1-4周 如何做好一份分析报告
分析的本质分析的目的是解决实际生产中我们发现的现象,追溯其背后产生的原因,提出针对性建议,并不断反复验证的过程。其实这句话看起来简单,但实际做的时候大多数人还仅仅是停留在描述数据表现的现象这个层面,甚至一个简练的描述现象观点都没有很好的总结出来。这个没有其他办法,多分析多总结才会慢慢变好。接下来我就根据自己的理解,讲讲如何完整地做好一个分析任务。搭好分析框架,提前预想结果明确分析的目的是什么分析的对象可以是活动、系统、玩法、群体、营收等等。当接到一个分析任务时,先明确分析的目的是什么,是验
2020-11-15 10:02:35
452
原创 【数据分析实战经验】利用Python找出购买次数第10次对应的时间
背景如题:工作中需要根据数值模拟进行判断,拥有玩家每次购买的时间,及角色id,评估玩家购买10次所需要的时长。处理过程1、读取数据import pandas as pddf=pd.read_excel(r'C:\Users\ADMIN\Desktop\1.xlsx')df.head()2、因为第一列角色存在id多次购买,先去重uni_roleid = df['RoleId'].unique().tolist()uni_roleid3、去重后,针对玩家id进行循环判断,利用len(
2020-10-12 16:39:37
551
原创 【数据分析实战经验】利用Python对数据进行做区间判断,打标签
背景同事在处理excel数据时,需要人工根据充值金额,进行用户的付费等级备注。举个例子:玩家充值满19.99元,为V1玩家,充值满49.99元,为V2玩家。。。。以此类推但,由于数据量过大,excel操作起来不方便,需要用到python。步骤解答1、开头是常规字段,不过用到文件的写入、保存需要用到path类#-*-coding:utf-8-*-import pandas as pdimport numpy as npfrom pathlib import Path as path
2020-10-10 17:02:45
2039
原创 【七七八八】我从国企辞职了,来游戏公司做了数据分析师
告别过去如题,真的像我半年前准备的那样,我最后真的离开了国企,也真的筹划了4天的离职旅行。正好是一个月以前,出来才知道,原来坐地铁一个小时和挤公交20分钟是差不多煎熬的,原来外面私企的福利没有那么多,公积金的比例也相对低,原来工资是下一个月才发,不是发当月,原来一年没有3次的过节费。写到这里不禁感谢一下前公司,完善的制度,完善的福利待遇体系,没有太多需要考虑丢了工作的压力。不过,回想之前那段每天痛苦工作的时光,人生没有那么多再来一次,我只能往前走。我学了什么话不多说,至今我来了第三周。我想趁这个机会,
2020-10-07 15:03:37
567
1
原创 【面试相关】面试常问到的特征工程究竟是什么呢?
整体步骤:评估-采集-数据清洗-数据预处理(归一化,数据量纲变换)-多个特征包括降维(PCA,LDA)-特征选择(皮尔逊、斯皮尔曼相关系数、卡方检验等)-带入模型-模型调参-模型评估-模型运用数据预处理拿到数据可能存在的问题有,不属于同一量纲:即特征的规格不一样,不能够放在一起比较。无量纲化可以解决这一问题。(标准化,或者0-1化)信息冗余:对于某些定量特征,其包含的有效信息为区间划分,例如学习成绩,假若只关心“及格”或不“及格”,那么需要将定量的考分,转换成“1”和“0”表示及格和未及格。(二值
2020-08-08 23:44:05
414
原创 【读书笔记】Mysql优化的个人理解
拜读了一下知乎大神的sql优化见链接sql基础架构图左边,客户端,like CMD、或者workbench,navicat,右边都是mysql的服务端。当查询出数据后,会返回给执行器。执行器一方面将结果写到查询缓存,当下次再查询,可以直接从缓存获得数据,另一方面,将结果响应回客户端。为什么要进行sql优化当多表连接查询,子查询的时候,服务器执行时间过长,等待结果时间太长。比如select dinstinct ..from ..join ..on ..where ..group by ..
2020-08-03 23:08:02
272
原创 【七七八八】疫情期间谈谈我的转变
三年前的我自认为找到了一份钱多事少离家近的公司,在公司的这三年我自认为我是挺努力的,也获得了一些荣誉。 感谢疫情,让我可以停下来,跳出圈子,看自己,看看外面的世界。 一开始,我清楚的记得那天的日子是3.5号,我也不知道为什么会在那一天,突然地开始思考人生。突然特别慌,特别迷茫,不知道自己会什么,又觉得自己什么都会,这他么的真是很可悲的事情。 我开始买课程,学习。我发现怎么求职网上都是产品经理,然后觉得这是切入互联网的非技术岗位,学习了梁宁的产品经理三十讲、大饼老师的AXURE教程,每天下...
2020-08-03 09:35:07
831
2
原创 【读书笔记】七周成为数据分析师--python可视化篇⑥
matplotlib1、折线图df.avg.value_counts().sort_index().plot()2.柱形图与条形图df.avg.plot.bar()#柱形图df.avg.plot.barh() #条形图3、直方图df.avg.plot.hist()4、箱线图第一种:df.groupby(‘education’).apply(lambda x:x.avg).unstack.T.plot.box()先把数据拆分成多个维度,确定行列第二种:推荐用这种df.boxplot
2020-08-02 23:12:59
294
原创 【七七八八】LeetCode 刷题-mysql(偶尔更新)
626. 换座位小美是一所中学的信息科技老师,她有一张 seat 座位表,平时用来储存学生名字和与他们相对应的座位 id。其中纵列的 id 是连续递增的小美想改变相邻俩学生的座位。你能不能帮她写一个 SQL query 来输出小美想要的结果呢?示例:±--------±--------+| id | student |±--------±--------+| 1 | Abbot || 2 | Doris || 3 | Emerson
2020-07-22 23:27:27
227
原创 【读书笔记】七周成为数据分析师--python实战篇⑤
1、注意导入的encoding是utf8,还是gbk2、更改数据类型,用astype()正常是切出某一列,比如df.工号.astype(‘str’)但不要漏了要再赋值一次给工号,df.工号=df.工号.astype(‘str’)3、df.info(),简单看看数据类型4、df.query(‘age’>15).city=='北京’筛选出大于15的,对应city,去逻辑判断为北京的数据5、df[(df.age>15)&(df.city>‘上海’)]两次筛选,得到结果
2020-07-18 23:45:42
366
原创 【七七八八】Don‘t Settle.Keep Faith(离职前的心路历程)
今天是周六,我如约坐在电脑前面,待会估计学会python打打基础。最近科室来了很多新人,有中南大学研究生,有南京大学本科生,有哥伦比亚大学研究生,原来我才发现之前科室还有好多人都是厦大的。我一直在想,看着这些新人,就像当初他们看着我一样。我在想:“他们为了什么来到这里?”,他们中甚至有我梦想的专业计算机,甚至是研究生学到了概率与统计专业,却还是选择加入我们行政科室。也是,没想到我这样的理工直男,居然也会莫名奇妙地竞聘过来,当初也是图一个发展。工作就是一个围城,除非你不断尝试,否则很难做到自己喜欢的工
2020-07-18 09:26:31
1033
2
原创 【面试相关】数据分析面试前必看知识点Q&A①
趁着周末,决定花些时间来整理一下,属于我的数据分析学习地图。不知道为什么有一种每天只有下班的时间才是我真正上班学习的时间,的确现在这份工作没能给到我一定的满足感吧过两天我会再分享一下自己看书的总结再夯实一点基础!...
2020-07-12 21:28:39
744
原创 【读书笔记】七周成为数据分析师--python篇④
python 篇讲讲python吧,主要分为数据科学环境、基础、numpy和pandas、数据可视化、数据分析案例、数据分析平台这几块。1. 数据环境数据环境anaconda(狂蟒之灾),可以直接百度清华镜像下载。接着构建运行环境 jupyter notebook,最后写下第一行代码print(‘hello world’),告诉大家我来啦!2.基础小知识操作方面:shift+tab 常常用来看函数的内涵步骤shift+回车 执行完跳至下一单元格ctrl+回车 单纯执行本单元格python
2020-05-31 20:33:06
863
原创 【读书笔记】七周成为数据分析师--mysql篇③
MYSQL 基础语法篇建议参考mysql基本语法1、数据库是数据存储的集合,列存储组织信息(各属性),行存储表中的明细记录2、主键唯一,不可为空。3、order by asc 升序,order by desc 降序4、where … between …and…/in(…,…)/!=或<>/not inwhere 可以配合and /or 一起用,注意处理逻辑where 可以配合like模糊查询5、group by一个小技巧,当group by A时,select A from
2020-05-31 20:32:33
548
原创 【读书笔记】七周成为数据分析师--(Excel基础技能+高级图表②)
2 Excel基础技能+高级图表基础打牢对之后数据分析会更有帮助1、find(要查找的字符串,被查找的字符串,开始位置),即查找到字符串为止前有多少字符。2、left(被查找的字符串,从左侧返回的字符串个数),right(被查找的字符串,从右侧返回的字符串个数)3、concat(字符串1、字符串2…)4、replace(原字符串,开始位置,字符个数,新字符串)5、trim()删去字符串中多余空格6、index(区域,行,列),索引的概念,把区域看成一个数组,list7、计算统计函数:sum
2020-05-31 20:30:46
855
原创 【读书笔记】python 数据挖掘与分析实战、深入浅出mysql、廖雪峰数据库sql教程、吴恩达机器学习--讲讲降维
从昨天开始学习吴恩达的机器学习篇,过两天来更新一下学习笔记…
2020-05-27 16:36:39
489
原创 【项目练手】淘宝用户行为分析②--(数据量:百万级,工具:python)
上一篇,我们利用mysql分析了淘宝用户行为–利用mysql进行电商数据分析这次同样的我们利用不同的工具python进行分析。数据集来源: 阿里云池样本量: 3835331
2020-05-24 17:07:59
986
原创 【读书笔记】七周成为数据分析师--知识体系篇①
- 概念:建议参考mysql基本语法1、数据库是数据存储的集合,列存储组织信息(各属性),行存储表中的明细记录2、主键唯一,不可为空。3、order by asc 升序,order by desc 降序4、where … between …and…/in(…,…)/!=或<>/not inwhere 可以配合and /or 一起用,注意处理逻辑where 可以配合like模糊查询5、group by一个小技巧,当group by A时,select A from 要有,否则会
2020-05-18 22:46:53
602
原创 【七七八八】简单的对话python代码实现
背景:兑换货币小精灵:您好,欢迎来到牛逼哄哄的charming王国,请问您需要帮助吗?需要or不需要?你:需要小精灵:请问您需要什么帮助呢?1 存取款;2 货币兑换;3 咨询你:2小精灵:牛牛金币和人民币的兑换率为1:53.3,即一牛牛金币=53.3人民币小精灵:请问您需要兑换多少牛牛金币呢?(你说了一个数字N)小精灵:好的,我知道了,您需要兑换(你说的数字N)牛牛金币。小精灵:那么,您需要付给我(你说的数字N*53.3)人民币。注1:如果选择不需要帮助,小精灵会礼貌地说'好的,再见。
2020-05-17 13:52:33
4356
原创 【读书笔记】数据分析的常用五大业务分析框架
一、市场营销模型以用户生命周期搭建的框架主轴,围绕结构化的思维适用于传统行业营销的分析针对机会客户进行细分二、AARRR模型1、用户获取:曝光量、转化率、ROI、日应用下载量、日新增用户、获客成本、一次会话用户占比2、用户活跃:日/周/月:活跃用户下载量活跃用户占比:衡量产品健康度用户会话次数、访问时长、平均访问次数3、用户留存某段时间使用过,过段时间继续使用4、营收付费用户数/占比、ARPU:某段时间内每位用户平均收入ARPPU:某段时间内付费用户平均收入客.
2020-05-16 10:43:52
1244
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人