第1章 R语言介绍

最新推荐文章于 2024-08-23 15:09:57 发布

原创最新推荐文章于 2024-08-23 15:09:57 发布 · 1.3k 阅读

1 ·

CC 4.0 BY-SA版权

R语言学习笔记专栏收录该内容

5 篇文章

订阅专栏

这篇博客介绍了R语言的优势，包括开源免费、强大的数据分析能力和图形化功能。详细讲述了R语言的使用，如其解释型语言特性、如何赋值和使用函数。讨论了R的工作空间管理，包括查看和设置工作目录的方法。此外，还讲解了输入输出操作，包的安装和使用，以及R中的批处理和大数据处理。提供了一些学习资源和常用函数，如mean()、sd()和plot()。

1.1 R的优势

开源免费
提供多样化的数据分析技术，可以完成几乎任何类型的数据分析工作
制图功能，实现复杂数据可视化
支持交互式数据分析和探索
可以从多个数据源获取数据并将其转化为可用形式

1.3 R的使用简介

R语言是一种区分大小写的解释型语言。其多种功能由程序内置函数和用户自编函数提供，一些基本函数默认可以直接使用，其他高级函数则包含于按需加载的程序包中。
R语句由函数和赋值构成。赋值号为<-（小于号<和等号=;也可以同时按Alt和-号），而不是传统的=（尽管=号是可以为对象赋值的，但可能会出现问题，不推荐使用）
R程序中注释使用符号#开头，在#之后出现的任何文本都会被R解释器忽略。

eg.x<-rnorm(5); #创建一个名为x的向量对象，包含5个来自标准正态分布的随机偏差。

可以使用函数c()以向量的形式输入数据，这个函数可以将其参数合并为一个向量或列表。
函数q()可以结束会话并退出R
常见的描述统计函数：

均值 mean() 标准差 sd() 求相关系数cor(x,y) 绘制散点图 plot(x,y)

demo(graphics)可以查看在R中能够作出何种图形
R与R-Studio关系：https://www.jianshu.com/p/87f9afb8068c

这篇文章（尤其第一篇）讲了R入门知识。

a<-3
b <- 1
c <- 4
u <- 5+6
rm(b)
rm(u,c)  
rm(list = ls())#清空所有变量

rm（）函数可以用于清除变量

ctl+l（字母L小写）：清空控制台

ctl+1（数字1）：跳至脚本编辑器

ctl+enter：运行所选脚本行

使用R-Project管理工作目录：https://mp.weixin.qq.com/s/G-LXN9P2HVLv9v0cvyFJMA

几个学习R的网站/资源：

简书：https://www.jianshu.com/subscriptions#/subscriptions/3027704/collection

https://www.jianshu.com/c/7a295a2306de

https://www.jianshu.com/c/f62e0032334e

网上有各种教程，遇到任何问题及时查找，基本都可以找到解答

R中的帮助功能：

R的工作空间：

工作空间（workspace）：当前R的工作环境，储存所有用户定义的对象（如向量矩阵，函数，数据框，列表）
使用上下方向键（↑/↓）可以查看已输入命令的历史记录，可以选择一个之前输入过的命令进行适当修改，按回车重新在执行
当前的工作目录（working directory）：R用来读取文件和保存结果的默认目录。

可以使用函数getwd()来查看当前的工作目录；使用函数setwd()设定当前的工作目录

如果需要读入一个不在当前工作目录的文件，需要在调用语句中写明完整的路径，并且要用引号闭合目录名和文件名

常见的用于管理R工作空间的函数：

runif()函数生成均匀分布随机变量；rnorm()生成正态分布随机变量

setwd("C:/myprojects/project1") 
# setwd()命令路径中使用正斜杠/，在R中反斜杠\是作为转义符使用的
# setwd()函数不会自动创建一个不存在的目录，可以使用dir.create()来创建新目录；再使用setwd()把工作目录指向这个新目录
options()
options(digits=3)
x<-runif(20) # 生成20个均匀分布随机变量的向量
summary(x)
hist(x)
savehistory() # 将工作空间保存到镜像文件中，下次打开可继续编辑
save.image() #保存镜像
q()

输入与输出

文本输入：source("filename")将执行引号内脚本文件中的R语句集合，默认该文件在工作目录中；否则需要注明路径（避免报错）。如source（“C:/myproject1/script.R”）#R脚本文件一般以.R作为文件后缀名。
文本输出：sink("filename")将输出重新定向到指定的filename文本文件中，同样默认该文件在工作目录中。参数append=TRUE会将文本追加到该文件内容后，否将将覆盖文本内容；参数split=TRUE将把输出同时发送到到文件和当前屏幕；sink()（无参数）直接将输出发送到屏幕。
图形输出：常用函数

最后用dev.off()将输出返回到终端

#假设现有包含R代码的三个脚本文件script1.R,script2.R,script3.R

#执行scrpt1.R中的代码，结果输出到屏幕
source("script1.R")

#在执行scrip2.R中的代码前先将结果输出模式设定好
sink("myoutput",append=TRUE,split=TRUE)
pdf("mygraphs.pdf")
source("script2.R")


sink()
dev.off()
source("script3.R")
# 执行script3.R中的代码，结果显示在屏幕上，但没有任何文本/图像被保存到文件

1.4 包

包（package）：R函数、数据、预编译代码以一种定义完善的格式组成的集合
库（library）：计算机上存储包的目录，函数library（）显示库中有哪些包；函数.libPaths()显示库所在的位置
R中的默认包（如base，graphics，datasets，utils，stats，methods，grDevices）中提供的函数和数据集可以直接使用不用下载安装和加载。
安装包：从某个CRAN镜像站点下载包放入库中。install.packages("name_of_a_package")，update.packages()更新包；installed.packages()显示已安装包的信息
加载包：library（“name_of_a_package”）将某个包载入当前的R会话，在载入某个包之前必须确定该包已经被下载安装了。可以通过自定义启动环境（附录B）来设置自动加载一些常用的包。

help(package="package_name"）命令可以输出对应包的描述以及包中所有函数和数据集的列表。

R语句中常犯错误
错误类型	示例
大小写	help（）→Help()
括号忘加	help()→help
必要的引号丢失	install.packages("name")→install.packages(name)
路径名使用了右斜杠\（转义字符）	setwd("C:/Rproject1")→setwd("C:\Rproject1")
错误下载或者加载包	包本身是默认的不需要下载安装或者包还没有下载安装

1.5 批处理

批处理用于重复地、标准化地、无人值守地执行某个R程序。

将路径调整为R.exe所在位置和对应执行的脚本文件所在位置

1.6 将输出用于输入——结果重用

R具有一个非常实用的特点：分析的输出结果可以轻松保存，并作为进一步分析的输入使用。

lm(mpg~wt,data=mtcars)#不保存任何信息
lmfit <- lm(mpg~wt,data=mtcars)#保存在lmfit列表对象中
summary(lmfit)#显示分析结果的统计摘要
plot(lmfit)#生成回归诊断图形
cook <- cooks.distance(lmfit) #计算影响度量统计量
plot(cook)#对库克距离绘图
predict(lmfit,mynewdata)#预测