
BI
qiu_zhi_liao
这个作者很懒,什么都没留下…
展开
-
数据分析导论
当时恰好赶上 2009 年微博的热潮。我用 3 个月的时间就就积累了 4 万粉丝,一年的时间积累了上百万粉丝。这是怎么做到的呢?通过数据采集,我收集了每天的微博热点,然后对热点进行抓取、去广告,再让机器定时自动进行发布。同时我让账号每天都去关注明星的粉丝列表,这样可以获得 15% 的回粉概率。久而久之,就会有源源不断的粉丝。其实就是数据分析帮我做到了微博的自动化运营。学习数据分析的核心就是...转载 2018-12-20 00:04:38 · 763 阅读 · 0 评论 -
R绘图 vs Python绘图(散点图、折线图、直方图、条形图、箱线图、饼图、热力图、蜘蛛图)
写在前面:为啥不用excel绘制这些图,用PoweBI,帆软BI等可视化软件来绘图,不是更方便吗?的确,这些工具都很方便,但同时,它们显得很呆,不够灵活,更为致命的是,它们绘制出的图形,分辨率不够,用来出版论文,是不合格的。所以,要做学术的朋友,对R,Python可视化绘图感兴趣的朋友,不妨下点功夫将这些技术学到手。我之所以,将自己花费4个晚上,8个小时整理出来的文档分享出来,无非是为了减少大...原创 2019-01-19 00:42:28 · 7980 阅读 · 0 评论 -
数据分析项目某电商app行为数据分析(1)
安装mysql数据库(官网下载即可,免费)安装过程如下:MySQL数据库安装安装数据库客户端(官网下载试用版或破解版),安装过程如下数据库客户端安装数据集下载:天池竞赛将下载到的csv文件导入到mysql数据库,参考以下:excel导入mysql库拿到数据,先看一眼数据长啥样,是否有null值,什么样的数据类型;select * from tianchi_mobile_rec...转载 2019-04-27 00:32:16 · 1954 阅读 · 0 评论 -
pycharm使用import numpy报错
遇到这个问题的主要原因是 PyCharm 会给每一个新建的项目都是一个全新的虚拟环境。在这个环境下,默认的包只有 pip、setuptools 和 wheel 这三个工具,你可以在 File->Settings 里面找到这个界面。这说明 numpy 并没有配置到你创建的这个 Project 下的环境中,需要手动点击右侧的 + 号,对 numpy 进行添加。添加之后就可以正...原创 2019-01-20 18:18:53 · 12920 阅读 · 2 评论 -
数据分析思维框架---认知决定差异
当发现近4天的订单量明显下滑;这就引起了产品经理的注意。产品经理分析:是否有负面报道在被扩散,是否竞争对手在做活动,是否某商品缺货,价格异常,一通发问,并没有找到原因。于是将其当作需求抛给了数据分析团队;BI是这样做的:数据验证:绘制近一周的订单折线图,发现的确有明显的下滑。 数据探索:是不是新增用户过多导致的,绘制同期新增用户图,发现二者从图上看并没有相关关系 是不是日活过...原创 2019-01-14 18:40:09 · 532 阅读 · 0 评论 -
数据分析全景图
在做数据分析项目时:1. 不重复造轮子一个模型是否有相关的类库可以使用——这几乎是每个程序员入行被告知的第一条准则。我也会对新人反复灌输这个概念。大部分情况下你都能找到类库来完成你的想法。2. 工具决定效率工程师会选择使用者最多的工具。因为:Bug 少、文档全、案例多。学习方式:1、代码一定要敲,写好注释进行分享2、思维导图一定要画,帮你总结得失3、工作中经常做分享...转载 2018-12-20 00:25:54 · 1211 阅读 · 0 评论 -
数据分析步骤
数据挖掘的过程可以分成以下 6 个步骤。商业理解:数据挖掘不是我们的目的,我们的目的是更好地帮助业务决策;所以的从实际商业需求出发,在这个基础上,再对数据挖掘的目标进行定义。数据理解:尝试收集部分数据,然后对数据进行探索,包括数据描述、数据质量验证等。这有助于你对收集的数据有个初步的认知。数据准备:开始收集数据,并对数据进行清洗、数据集成等操作模型建立:选择和应用各种数据挖掘模型,...转载 2018-12-20 01:08:34 · 882 阅读 · 0 评论 -
Python科学计算:用NumPy快速处理数据
写在前面:大家再读别人文档的时候,一定有过以下方面的苦恼:1、为啥我复制别人的代码总是执行报错;(内心mmp,劳资就是想学个技术,咋就这么难了???)emmn,一定是你的计算机环境与别人不一样;(强烈建议大家回答问题,写文档时加上自己的开发环境和使用软件的版本。)比如我现在就想学习数据分析,那么第三方库Numpy,Pandas就是必须的;可是,一般的书籍上来就推荐你用python2...原创 2019-05-02 16:45:17 · 1163 阅读 · 1 评论 -
python基本语法
写在前面:浙江大学 ACM 的 OnlineJudge,练习python语法结构:http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemId=1 leetcode各种编程语言刷题:https://leetcode.com/与解答:https://www.jiuzhang.com/solution/ pycharm(写爬虫做大项目必...原创 2018-12-23 11:17:53 · 231 阅读 · 0 评论 -
如何做到自动化运营--数据驱动
这篇文章,只是以数据分析的视角进行一个自动化运维的解析,不提供代码和具体技术,就当作培养数据思维了。我们都知道很多社交网络上可以刷粉,也可以刷阅读量,这已经形成了一个“产业链”。那么如何通过技术来实现了?首先我梳理了一下整个流程,可以分成 3 个步骤。1. 多个手机号---现在账号注册都是需要绑定手机号的,所以手机号是必备的。2. 多个 IP--共用同一个 IP,一定会被封...转载 2019-05-02 16:48:38 · 1550 阅读 · 0 评论 -
数据抽象能力---适合任何行业
用户画像的准则首先就是将自己企业的用户画像做个白描,告诉他这些用户都是谁”“从哪来”“要去哪”。设计唯一标识可以从这些项中选择:用户名、注册手机号、联系人手机号,邮箱、设备号、CookieID 等。其次,给用户打标签。“用户消费行为分析”。我们可以从这 4 个维度来进行标签划分。用户标签:它包括了性别、年龄、地域、收入、学历、职业等消费标签:消费习惯、购买意向、是否对促...转载 2019-05-02 16:48:11 · 705 阅读 · 0 评论 -
用PYTHON绘制中国地图VS用R绘制中国地图
由于课题的需要,需要根据各省,市的指标数据在地图上进行差异颜色标记,以实现更好的可视化表达。本人对R较为熟悉,遂打算先用R实现需求。计算机环境:MacBook Pro (Retina, 13-inch, Early 2015)软件环境:RStudio Version 1.1.414 – © 2009-2018 RStudio, Inc.install.packages("maps...原创 2019-01-01 22:34:09 · 6851 阅读 · 2 评论 -
如何自动化采集数据
python爬虫会经历三个过程:1,使用Requests爬取内容。2,使用xpath解析内容3,使用pandas保存数据,将数据存储在mysql数据库中常用的软件爬虫:1,火车采集器,使用绝大多数网页,网页中能看到的内容都可以采集2,八爪鱼,免费的采集模板适合电商,生活服务,社交媒体,论坛;云采集,配置好采集任务,就可以交给八爪鱼云端进行采集---八爪鱼一共5000...转载 2019-01-08 00:55:48 · 2325 阅读 · 0 评论 -
数据清洗---占据了数据分析师80%的时间
以点一份披萨为例,讲清数据分析全流程。01播种农场的西红柿提供了披萨的配料,在农场播种西红柿种子。这就相当于数据生成过程,比如用户操作,触发传感器,前端埋点等。02收获采摘成熟的西红柿。这就相当于数据收集,将用户的交互行为记录为实际数据。友盟等就提供了第三方的埋点支持。03运输西红柿被运往目的地。这就相当于数据被存储在数据库或数据湖中。04选择厨具和设备每种食材...原创 2019-01-13 17:01:00 · 1553 阅读 · 0 评论 -
数据集成--ETL工具
背景:不同平台都可以获得用户,这些用户之间可能是交叉重复,比如你之前在A平台注册了,后来你又在B平台注册了。而不同的平台存储数据的表结构,表字段可能不同。最有代表性的,美团合并了大众点评,两家外卖平台的数据必须整合在一起,才能发挥更大的商业价值----数据集成。数据集成的两种架构:ELT 和 ETL一般来说,数据工程师的工作包括了数据的 ETL 和数据挖掘算法的实现。算法实现可以理解,就是...转载 2019-01-13 18:04:41 · 5891 阅读 · 0 评论 -
数据转换
数据变换是数据准备的重要环节,它通过数据平滑、数据聚集、数据概化和规范化等方式将数据转换成适用于数据挖掘的形式。数据平滑:去除数据中的噪声,将连续数据离散化。可以采用分箱、聚类和回归的方式进行数据平滑。数据聚集:对数据进行汇总。数据概化:将数据由较低的概念抽象成为较高的概念,比如说上海、杭州、深圳、北京可以概化为中国。数据规范化:使属性数据按比例缩放。特征工程:对现有属性进...转载 2019-01-13 23:15:24 · 537 阅读 · 0 评论 -
数据可视化(推荐Tableau、 PowerBI 、FineBI、Echarts、ggplot、PYTHON、R)---数据分析领域的万金油技能
首先,这是一篇扩大知识面的文章,适合收藏起来,在地铁,公交,厕所,睡前,吃饭时看。。。。(耶,恶趣味)其次,本文不放图,节省大家的阅读时间(但还是很有必要看的,它教会你如何做图的主人!)。我们常用的可视化视图超过 20 种,分别包括:文本表、热力图、地图、符号地图、饼图、水平条、堆叠条、并排条、树状图、圆视图、并排圆、线、双线、面积图、双组合、散点图、直方图、盒须图、甘特图、靶心图、气泡图...原创 2019-01-14 11:41:12 · 24836 阅读 · 2 评论