数据分析3

利用R语言生成直方图

hist(表$列,breaks)

把所有的行分为breaks个组,也就是有多少个柱子,假设breaks=50

如果采集到了250个样本的化,那么这250个样本分成50组,每组有一个平均值?

一般来说breaks的值越大越能看到概貌,越小则越准确


R语言计算标准差/均方差


标准差:所有数减去其平均值的平方和,所得结果除以该组数之个数(或个数减一,即变异数),再把所得值开根号,所得之数就是这组数据的标准差。

标准差能反映一个数据集的离散程度。平均数相同的两组组数据,标准差未必相同,通俗点说,A班上是差生和优生都很多,B班都是中等生,虽然平均成绩差不多,但是A班的标准差肯定大于B班

 sd(表$列)



R语言汇总一列的函数

summary(表$列)


 

 Min.(最小值) 1st Qu.  Median(平均值)    Mean(中间值)zh 3rd Qu.    Max. (最大值)


没有搞明白两个峰是说的哪里?

 

四 利用R语言生成散点图

凡是想搞清楚变量A和变量B的关系,就可以用散点图,但是变量A和变量B必须是有关联的,比如同属于一个人的两个特征

在表格里如果想搞清楚两列之间存在什么联系,也可以使用


plot($表$列,$表$列)



五观察散点图中的回归线,相关性系数(0-1)


查看提出薪资要求和实际涨薪幅度的相关性


 cor(employees$requested[employees$negotiated == TRUE],employees$received[employees$negotiated == TRUE])



如何得出相应的线性函数呢

y=a+bx,如何得出a和b?


myLm <- lm(received[negotiated==TRUE]~requested[negotiated==TRUE],data=employees)

> myLm$coefficients


算出的y值是有误差的,所以需要在这条回归线上算出相应区域的均方根误差


 summary(myLm)还可以对模型汇总?


针对所有数据进行均方根误差估计,不如根据图形的回归线趋势的不同对其进行分组,这样准确率更高一些

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值