利用R语言生成直方图
hist(表$列,breaks)
把所有的行分为breaks个组,也就是有多少个柱子,假设breaks=50
如果采集到了250个样本的化,那么这250个样本分成50组,每组有一个平均值?
一般来说breaks的值越大越能看到概貌,越小则越准确
R语言计算标准差/均方差
标准差:所有数减去其平均值的平方和,所得结果除以该组数之个数(或个数减一,即变异数),再把所得值开根号,所得之数就是这组数据的标准差。
标准差能反映一个数据集的离散程度。平均数相同的两组组数据,标准差未必相同,通俗点说,A班上是差生和优生都很多,B班都是中等生,虽然平均成绩差不多,但是A班的标准差肯定大于B班
sd(表$列)
R语言汇总一列的函数
summary(表$列)
Min.(最小值) 1st Qu. Median(平均值) Mean(中间值)zh 3rd Qu. Max. (最大值)
没有搞明白两个峰是说的哪里?
四 利用R语言生成散点图
凡是想搞清楚变量A和变量B的关系,就可以用散点图,但是变量A和变量B必须是有关联的,比如同属于一个人的两个特征
在表格里如果想搞清楚两列之间存在什么联系,也可以使用
plot($表$列,$表$列)
五观察散点图中的回归线,相关性系数(0-1)
查看提出薪资要求和实际涨薪幅度的相关性
cor(employees$requested[employees$negotiated == TRUE],employees$received[employees$negotiated == TRUE])
如何得出相应的线性函数呢
y=a+bx,如何得出a和b?
myLm <- lm(received[negotiated==TRUE]~requested[negotiated==TRUE],data=employees)
> myLm$coefficients
算出的y值是有误差的,所以需要在这条回归线上算出相应区域的均方根误差
summary(myLm)还可以对模型汇总?
针对所有数据进行均方根误差估计,不如根据图形的回归线趋势的不同对其进行分组,这样准确率更高一些