- 博客(20)
- 资源 (24)
- 收藏
- 关注
原创 统计专业打怪升级参考指南(本科)
统计是一个古老的专业,中国的大部分院校都会有这样一个专业。它或许开在数学学院门下,或许开在经济学院门下,也可能单独作为一个学院叫统计学院。总而言之,它历史很悠久啦。最早是计划统计,主要用在经济领域,现在统计其实有很多细分,但是我在这里还是把它作为一个整体来介绍。下面是指南的正式内容:(1)本科一年级(青铜)(2)本科二年级(白银/黄金)(3)本科三年级(铂金/钻石)(4)本科四年级(王者)【注】:大四需要面对实习就业/升学/...
2022-03-20 11:01:48
460
原创 数据类实习应知道的事情
【目录】1、菜鸟入职,如何熟悉你未来的工作环境?2、新手上道,怎样弄清楚你所在的项目?3、代码小白,编程能力如何快速提升?4、数分嘴强王者,做数据分析如何才能贴近业务?5、理解困难户,文档和代码怎么写才能让被人看懂并使用?6、离职跑路,什么才是你需要重点交接的东西?【正文】1、菜鸟入职,如何熟悉你未来的工作环境?终于,拿到,工牌了!听完了企业文化的宣讲,签完了各种需要签的字,你成功领到了工牌,可以开始一段实习的旅程。接下来,你会联系上你的实习导师,屁颠屁颠
2022-03-20 10:59:20
459
原创 数据分析师岗位要求案例分析
【岗位要求案例】【分析】一、工作职责1、基于对业务的理解,搭建可以准确反映业务表现和健康程度的数据指标监控体系(1)职责总结:理解业务→ 结合业务选择指标 → 搭建能反映业务情况的指标体系;(2)需要掌握的能力:该企业的业务知识+常用业务模型+统计指标体系。2、有灵敏的商业嗅觉,善于沟通、能够深入了解业务问题和痛点,通过数据分析为业务决策、产品方向、运营策略提供数据支持(1)职责总结:从业务中发现问题和痛点来源→ 用数据分析的方法进行验证;...
2022-03-20 10:57:43
885
原创 关于普通数据分析师的成长思路设计
一、理论1、学术基础理论(1)数学基础课:主要包括《初高中数学》+《微积分》+《线性代数》+《概率论与数理统计》,任意教材均可。当然不是里面所有的东西都会用上,不过学会这些才能形成最基础的数学体系,有助于后续学习中高级的统计学。(2)初级统计学[1]推荐教材:贾俊平的《统计学》;[2]核心知识板块:描述统计学+推断统计学(区间估计、假设检验)+相关分析+回归分析+统计指数+时间序列分析。(3)中高级统计学[1]多元统计分析:推荐教材为高...
2022-03-20 10:56:35
2238
原创 深入解析标准化在降维中的应用
大家好,我是稀饭。今天给大家分享一下标准化在降维中的应用,内容源于毕业论文中的一部分研究拓展。对于标准化,相信大家已经不陌生了,一组数据中的某个数,减掉它所在的这组数据的均值,再除以这组数据的标准差,就可以得到对应的标准化分数,也叫z分数。z分数可以回答这样一个问题:“一个给定分数距离平均数多少个标准差”。在平均数之上的分数会得到一个正的标准分数,在平均数之下的分数会得到一个负的标准分数。z分数是一种可以看出某分数在分布中相对位置的方法。在降维过程中,标准化也非常重要,很多降维算法的
2022-03-20 10:52:26
1648
原创 数据分析常用知识体系
数据分析常用知识体系【数据获取】一、获取原始数据1、从数据库/数据仓库中获取(数据库+数据仓库+ SQL提数)2、爬虫爬取(R语言爬虫+ Python爬虫)3、手工整理(问卷数据录入、数据表制作等)二、获取整理好的数据1、数据资源下载(统计局、经管之家等)2、数据资源调取(R语言内置数据集、Python内置数据集)【数据预处理】一、数据库1、常用数据库基础知识(Mysql、sqlServer、Oracle、Hbase + H...
2022-03-18 15:58:55
2891
原创 基于数据分类下的数据分析思路简介
我们在做数据分析的时候,往往首先想到的是各种方法,比如传统统计学的方法、多元统计的方法、机器学习的方法等等。但是今天我要说的是,我们在做数据分析的时候,应该首先考虑清楚数据的分类,即先对数据做定性的判断,再选择合适的方法去进行处理。那么数据分类有哪几种分类思路呢,下面做了说明:1、数据结构化程度上分析数据从类型上可以分为结构化的数据、非结构化和半结构化的数据。结构化的数据往往又有几种分类方式,比如按数据的属性可以分为数值型数据、分类型数据;按照数据与时间的关系,可以分为横截面数据、时间序列数
2022-03-18 15:57:58
822
原创 聚类与RFM模型 —— 从5月的一道腾讯数据分析面试题说起
2020年5月份的时候曾经投过腾讯的数据分析实习,中午投的简历,午觉睡醒就被call,没有HR通知,南山必胜客直接就来技术面。当时准备的还不够充分,半小时后就感谢充值了,不过里面有一道题倒是想在今天拿来说一说,也和我的近期实习相关联。问题由腾讯面试官所在组的业务问题引入,具体的内容记不清了,但主要问的是RFM模型和聚类的融合。抽象表达一下就是:某个业务场景,简化为RFM模型,基于RFM模型的指标结构,做聚类,完成用户分群。先简要介绍一下RFM模型吧。RFM模型是由美国数据库营销研究所的Art
2022-03-18 15:56:07
679
原创 聊一聊时间序列聚类
今天来聊一聊时间序列,嗯……为什么聊这个呢,因为近期处理的都是时间序列数据。由于组里是做事后验证的,所以常用的方法其实还是以描述型为主,较少涉及建模预测。当然,今天要讲的内容和大家常看的时间序列分析的内容不一样,这次要讲的是时间序列数据和聚类算法的结合,或许有些冷门。稍微接触过一些聚类算法的朋友应该都知道,聚类嘛,关键在于求距离矩阵。无论你是用普普通通的欧氏距离,还是用高级的JS散度,总是为了知道各个数据点之间有多大的差异,这种差异就是用距离矩阵来衡量的。那么普通的横截面数据的聚类大家都清楚,无非就
2022-03-18 15:54:30
5209
原创 热门算法总结 —— AP聚类
1、算法简介(1)概述:AP聚类是在2007年的《Clustering by Passing Messages Between Data Points》一文中首次提出的一种新的聚类算法。该算法无需事先定义类数,而是在迭代过程中不断搜索合适的聚类中心,自动从数据点间识别类中心的位置及个数,使所有的数据点到最近的类代表点的相似度之和最大。算法开始时把所有的数据点均视作类中心,通过数据点间的“信息传递”来实现聚类过程。与传统的K-均值算法对初始类中心选择的敏感性相比,AP算法是一种确定性的聚类算法,多次独立运
2022-03-18 15:52:30
5775
1
原创 实际业务中的数据分析流程和痛点
平常我们在学校里完成一个数据分析,或者数据挖掘的项目,很多时候的流程是:在这种分析场景中,我们会更关注如何选择合适的方法来达到我们分析的目的。比如我们现在面对的是一个信用卡欺诈的识别问题,我们已经有了一份完整加上了标签的训练数据集,通过建立一些判别模型(如Logistic回归、决策树等),就可以完成模型的训练,然后在测试集上验证模型的效果,当评价指标尚可的时候,就拿来作为新数据集的识别模型。我们能较快地使用一些分析工具,如Python、R来实现上面的分析过程,有一个重要的前提,就是数据集
2022-03-18 15:50:38
3964
原创 关于实际业务中的数据分析
有过很多关于数据分析的文章,里面会对某个业务场景进行建模和处理。在接触实际业务后,发现这些分析内容,从方法论和模型上并没有什么问题,但是处理的业务场景却过于简单了,实际当中,方法和模型甚至要更普通和弱化,但对业务场景的抽象却远远比纸上谈兵中所说的那些复杂的多。很多时候我们在公众号里看别人写的内容,会以一个“出现A→ 从而B→ 所以C”的这种模式去开展ta的论述。这样的分析思路没有问题,但是在实际中仅仅做到这样的分析是不够的。在实际业务中,“出现A”从来都不是一个事件真正起始环节,在分析的时候,往..
2022-03-18 15:49:21
162
原创 热门算法总结 —— DFGS
1、算法简介(1)概述:DFGS是一种拟牛顿优化算法。拟牛顿法是针对牛顿法中海塞矩阵迭代过程中不一定正定所提出来的改进方法。即通过构造一个与海塞矩阵相差不太远的正定矩阵作为其替代。此外,拟牛顿法可以迭代更新海塞逆矩阵,而不是在每一时刻都重新进行逆矩阵的计算。拟牛顿法常用的计算规则包括DFP算法、BFGS算法、Broyden算法、SRI算法等。可以证明,当初始点离最优点足够近时,拟牛顿法和牛顿法具有同样的二次收敛速率。(2)主要用途:解优化问题,求最优参数值。(3)优缺点[1]优点:有拟牛顿.
2022-03-18 15:47:20
983
原创 热门算法总结 —— DPCA
1、算法简介(1)概述:密度峰值聚类算法(DPCA)是一种可以发现非凸簇类的新型聚类算法,该算法的核心思想建立在对簇类中心点或者密度峰值点的两个重要假设之上:[1]假设一:簇类中心点的局部密度大于其周围相邻点的局部密度;[2]假设二:簇类中心点与其他中心点间有着相对较大的距离。上述两种假设在给出簇类中心点描述的同时,也给出了一种检测中心点的准则。该算法的核心思想在于对聚类中心点的计算,聚类中心点具有本身密度大和与其他密度更大的数据点之间的距离相对更大的特点。算法首先通过使用一截断距...
2022-03-18 15:45:21
3133
原创 热门算法总结 —— Slope One
1、算法简介(1)概述:Slope One是一种基于评分的协同过滤算法。协同过滤是通过计算用户间偏好的相似性,在相似用户的基础上自动的为目标用户进行过滤和筛选,其基本思想为具有相同或相似的价值观、思想观、知识水平和兴趣偏好的用户,其对信息的需求也是相似的。协同过滤常常用于推荐系统的设计。基于评分的Slope One算法具有简单、易懂、易于维护和执行、及时更新性等特点。与其他的个性化推荐算法相比,该算法不计算项目之间的相似度,而是用一种简单的线性回归模型进行预测(可以扩展)。算法易于实现,计算速度快,可.
2022-03-18 15:40:49
754
原创 因果推断:断点回归应用于业务数据分析的思路
因果推断是目前学术界和业界都在研究的热门内容。在常用的数据分析方法中,关注的是事件之间的相关性,而无法去识别事件之间的因果性,而很多时候在做决策与判断的时候,我们需要的是因果性。比如,我们想知道A事件的发生是否会导致B事件的出现,这种“导致”实际上是一种因果关系,而不仅仅是相关关系。目前,因果推断应用于业务数据分析的方法有很多,本文主要介绍一下因果推断中的“断点回归”。断点回归是自然实验中的一种观察方法,简单理解就是在回归过程中,观察在临界点处是否出现“断点”,并分析引起“断点”的政策因素P对回归的
2022-03-09 19:54:02
2574
原创 投入产出核算的知识应用于业务数据分析的思路
《国民经济核算》是经济统计学本科生的重要课程,在这门课程里会涉及到一个章节,叫做“投入产出核算”。该章节的核心是编制一个投入产出表,用来搭建经济学中理论和事实之间的桥梁。投入产出核算反映了经济中的作用关系。在经济的任何一点上,一个事件的影响都是通过把整个体系联结在一起的那种交易链条,而一步一步地到达其他经济部门。投入产出表相当于一个有关整体经济的比率表,可以尽量详细地从数量关系方面来了解整个经济体系的内部结构,有助于分析当前的经济理论问题或预测未来的发展情况。在实际的业务数据分析中,所分析的
2022-03-09 19:52:16
871
原创 SQL中的日活与登陆问题
0、表的结构(部分数据)select * from user_log;2、求日活(保留user_id)select date(log_time) as log_time, user_id -- 对两个字段分别group by去重即可from user_loggroup by 1,2;【注】:这里展示部分数据。3、求连续登陆3天及以上的人群Step 1 因为每天用户登录次数可能不止一次,所以需要先将用户每天的登录日期去重;Step 2...
2022-03-09 19:49:18
610
2
用商业案例学R语言数据挖掘-学习笔记.pdf
2022-03-11
Eviews计量经济学基础操作指令.pdf
2022-03-11
《活用数据驱动业务的数据分析实战-学习笔记》.pdf
2022-03-11
《Hive编程技术与应用》学习笔记.pdf
2022-03-11
数据分析核心知识点总结 —— R语言.pdf
2022-03-09
数据分析核心知识点-机器学习
2022-03-08
厦大应用统计432考研专业课全书
2022-03-08
互联网数据分析岗位校招备战手册
2022-03-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人