数据分析3

最新推荐文章于 2022-04-18 23:24:21 发布

原创最新推荐文章于 2022-04-18 23:24:21 发布 · 350 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

利用R语言生成直方图

hist(表$列,breaks)

把所有的行分为breaks个组，也就是有多少个柱子，假设breaks=50

如果采集到了250个样本的化，那么这250个样本分成50组，每组有一个平均值？

一般来说breaks的值越大越能看到概貌，越小则越准确

R语言计算标准差/均方差

标准差：所有数减去其平均值的平方和，所得结果除以该组数之个数（或个数减一，即变异数），再把所得值开根号，所得之数就是这组数据的标准差。

标准差能反映一个数据集的离散程度。平均数相同的两组组数据，标准差未必相同，通俗点说，A班上是差生和优生都很多，B班都是中等生，虽然平均成绩差不多，但是A班的标准差肯定大于B班

sd(表$列)

R语言汇总一列的函数

summary(表$列)

Min.（最小值） 1st Qu. Median（平均值） Mean（中间值）zh 3rd Qu. Max. （最大值）

没有搞明白两个峰是说的哪里？

四利用R语言生成散点图

凡是想搞清楚变量A和变量B的关系，就可以用散点图，但是变量A和变量B必须是有关联的，比如同属于一个人的两个特征

在表格里如果想搞清楚两列之间存在什么联系，也可以使用

plot($表$列,$表$列)

五观察散点图中的回归线，相关性系数（0-1）

查看提出薪资要求和实际涨薪幅度的相关性

cor(employees$requested[employees$negotiated == TRUE],employees$received[employees$negotiated == TRUE])

如何得出相应的线性函数呢

y=a+bx，如何得出a和b？

myLm <- lm(received[negotiated==TRUE]~requested[negotiated==TRUE],data=employees)

> myLm$coefficients

算出的y值是有误差的，所以需要在这条回归线上算出相应区域的均方根误差

summary(myLm)还可以对模型汇总？

针对所有数据进行均方根误差估计，不如根据图形的回归线趋势的不同对其进行分组，这样准确率更高一些

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。