自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Marketing Size估算

marketing size是咨询公司最常见的面试问题之一,而我在面试数据分析的时候也曾经碰到过类似的题目,当时想法是抽样调研按比例计算,但是越想越混乱。直到后来才知道这是专门的一类问题,在没有数据支撑的情况下,如何在误差不离谱的情况下(同一个数量级),做一个有理有据的猜测,而面试中问这样的问题,我觉得更多的是考验一个人如何系统、有层次、有逻辑的去拆解分析一个问题。以估算1日的城市地铁客流量为例...

2019-09-05 22:44:18 2793

原创 python的有序字典

字典即哈希表,由空间换取时间得到取数O(1)的速度。对于哈希表有一个很好的比喻就是柜子,每一个对象通过计算获取一个hash值,hash值就像是柜子的编号(字典的key),用以迅速的查找柜子里所存储的东西(字典的value)。如果柜子里有多个东西(hash值不唯一),根据具体算法的实现方式有不同的处理方式,如链表(遍历柜子里的东西),内部再建一个哈希表,使用开放地址等。而在python中,是通过...

2019-09-02 22:27:40 208

原创 mysql优化——explain

上一份工作由于部门架构问题,没有人能搭建、维护、优化数据库,但由于数据量过大又有着这样的需求,最后只能由我硬着头皮上,今天就记一下之前做的一些关于优化的工作。基础的表结构设计、常用字段索引添加、水平垂直拆表就不说了,主要是想记一下自己关于查询语句的优化。explain的语法很简单,后面直接跟想要做的查询语句,就会对其查询的方式进行解析,一共会输出10个字段:| id | select_type...

2019-07-16 23:17:49 288

原创 Selenium-webdriver绕开反爬虫机制的4种方法

       之前爬美团外卖后台的时候出现的问题,各种方式拖动验证码都无法成功,包括直接控制拉动,模拟人工轨迹的随机拖动都失败了,最后发现只要用chrome driver打开页面,哪怕手动登录也不可以,猜测driver肯定是直接被识别出来了。一开始尝试了改user agent等方式,仍然不行,由于其他项目就搁置了。今天爬淘宝生意...

2019-06-26 23:30:46 18682

原创 数据分析框架思考

以接到的一份分析需求为例,简单写下自己平时分析的一个思考的逻辑,并不一定是最正确科学的,在以后会被自己推翻,但是是现在最习惯的一种流。一、需求交流为了避免需求不清晰导致大量的重复工作、无效工作,在一开始应交涉清楚,尤其是许多时候需求方自己一开始也未想好的时候,应该主动引导,包括以下几个方面的内容业务背景是怎么样?是双十一,618的大促效果,还是季节性波动的影响,还是异常点的分析分析...

2019-06-08 21:23:22 479

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除