欢迎转行的你查看《转行的你,如何成功面试数据分析》,祝大家都成功转行!

双11已过去2天,但是围绕着双11的讨论仍然激烈,热度不减。
有人喊话:你的快递被烧了(▽)
有人喊话:你的销售额不实在O(∩_∩)O
有人喊话:你再造谣要坐牢╭(╯^╰)╮
纷纷扰扰、真真假假、虚虚实实。而你我依旧是别人的弟弟,靠勇气来撑过这饥寒穷的冬天。既然如此,不如我们来学习吧!
数据分析的三种模式
描述性分析
是对所收集的数据进行分析,得出反映客观现象的各种数量特征的一种分析方法,它包括数据的集中趋势分析、数据离散程度分析、数据的频数分布分析等,描述性分析是对数据进一步分析的基础。
推断性分析
是研究如何根据样本数据来推断总体样本数量特征,它是在对样本数据进行描述统计分析的基础上,对研究总体的数量特征做出推断。常见的分析方法有假设检验、相关分析、回归分析、时间序列分析等方法。
探索性分析
主要是通过一些分析方法从大量的数据中发现未知且有价值信息的过程,它不受研究假设和分析模型的限制,尽可能地寻找变量之间的关联性。常见的分析方法有聚类分析、因子分析、对应分析等方法。
背景
双11已经走过11个年头了,我也忘记了我是从啥时候开始关注双11的。不过,在记忆中我是从来没有在双11期间买过东西。原因你们都懂得!现在,我们要预测一下未来5年双11的销量情况。
操作步骤
1. 准备数据
(左右滑动查看)
getwd() #获取当前路径
[1] “C:/Users/Administrator/Documents”
setwd(“C:/Users/Administrator/Desktop”) #设置目标路径
data <- read.table(“Tmall_sales.csv”,sep = “,”,header = T) #以逗号分隔字段,保留表头
data
year sales
1 2009 0.50
2 2010 9.36
3 2011 52.00
4 2012 191.00
5 2013 352.00
6 2014 571.00
7 2015 912.00
8 2016 1207.00
9 2017 1682.69
10 2018 2135.00
11 2019 2684.00
2.绘制散点图
(左右滑动查看)
plot(data,xlab = “年份”,ylab = “销售额”,main = “天猫双11销售额数据”)
3.建立模型
根据散点图的大致走势可以看出,天猫双11销售额很明显不符合简单线性回归,符合多项式回归,下面我们建立二次多项式回归模型。
(左右滑动查看)
data
year sales
1 2009 0.50
2 2010 9.36
3 2011 52.00
4 2012 191.00
5 2013 352.00
6 2014 571.00
7 2015 912.00
8 2016 1207.00
9 2017 1682.69
10 2018 2135.00
11 2019 2684.00
myfit <- lm(sales ~ year + I(year^2),data=data)
myfit
Call:
lm(formula = sales ~ year + I(year^2), data = data)
Coefficients:
(Intercept) year I(year^2)
1.220e+08 -1.214e+05 3.022e+01
summary(myfit)
Call:
lm(formula = sales ~ year + I(year^2), data = data)
Residuals:
Min 1Q Median 3Q Max
-36.923 -6.613 0.655 11.515 26.035
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.220e+08 2.774e+06 43.99 7.87e-11 ***
year -1.214e+05 2.755e+03 -44.08 7.74e-11 ***
I(year^2) 3.022e+01 6.839e-01 44.18 7.60e-11 ***
Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 20.03 on 8 degrees of freedom
Multiple R-squared: 0.9996, Adjusted R-squared: 0.9995
F-statistic: 1.077e+04 on 2 and 8 DF, p-value: 1.901e-14
4.模型优化
上述建立的模型优化后的确定系数R方为0.9995,近乎为1。说明模型近乎完美,这也是网上之所以怀疑造假的原因。毕竟现实生活中很难遇到这样近乎完美的数据。如果是这样,数据分析师简直不要太高兴了。
5.预测分析
(左右滑动查看)
new_year <- c(2020:2024)
values <- predict(myfit,newdata = data.frame(new_year))
values
1 2 3 4 5
3280.062 3940.175 4660.719 5441.694 6283.101
predict_values <- data.frame(new_year,values)
predict_values
new_year values
1 2020 3280.062
2 2021 3940.175
3 2022 4660.719
4 2023 5441.694
5 2024 6283.101
我们对天猫双11的销售额进行回归分析,得到了未来5年的预测数据。希望明年双11各位再来看看这篇文章,一起见证。
经过今天的学习,我们掌握了预测模型,可以应用于类似双11这样的销售额分析,或者是体重随身高的影响分析,再或者是广告投放量与销量的分析,等等场景。做过销售的朋友都知道,每个月都有业绩目标,制定业绩目标,也可以根据预测值来进行。当然,老板会向上浮动一些,增加难度哦!
知 识 点
多项式回归,回归变量是多项式的回归。多项式回归模型是线性回归模型的一种,此时回归函数关于回归系数是线性的。由于任一函数都可以用多项式逼近,因此多项式回归有着广泛应用。
转行的你,数据分析没有思路?不要急,每天坚持学习。转行的你,面试心里特别没有底,不要急,看看我给你写的面经《转行的你,如何成功面试数据分析》,扫描下方二维码关注公众号,可以获得更多内容哦!希望大家都成功转行~

“在看”的永远18岁~

本文分享了一位转行者在面试数据分析职位时的实战项目——预测双11销售额。通过描述性、推断性及探索性分析,使用R语言建立二次多项式回归模型,预测了未来5年的销售额。文章强调了数据分析在业务预测中的应用,并提供了学习资源。
1118

被折叠的 条评论
为什么被折叠?



