123R简介和统计绘图
本节作者:刘永鑫 中国科学院遗传与发育生物学研究所;陈同 中国中医科学院
版本1.0.2,更新日期:2020年8月31日
本项目永久地址:https://github.com/YongxinLiu/MicrobiomeStatPlot ,本节目录 123R,包含R markdown(*.Rmd)、Word(*.docx)文档、测试数据和结果图表,欢迎广大同行帮忙审核校对、并提修改意见。提交反馈的三种方式:1. 公众号文章下方留言;2. 下载Word文档使用审阅模式修改和批注后,发送至微信(meta-genomics)或邮件(metagenome@126.com);3. 在Github中的Rmd文档直接修改并提交Issue。审稿人请在创作者登记表 https://www.kdocs.cn/l/c7CGfv9Xc 中记录个人信息、时间和贡献,以免专著发表时遗漏。
本文教程的源代码见123R简介和统计绘图.Rmd,实战代码详见R.Rmd。
为什么要学习R
图. R常用图形 https://www.r-graph-gallery.com/
为什么选择R?
多领域的资源, CRAN收录16170个R包 (20年9月1日),涵盖了统计学、经济学、生态学、进化生物学、生物信息学、物理、化学等多学科。
跨平台, R可在多个主流操作系统下运行,包括Windows、MacOS和Linux。
命令行驱动 R即时解释,输入命令,即可获得相应的结果,满足在绘图中及时修改的需要。
R语言优势
统计分析能力突出,部分统计功能整合在R语言的底层,但大多数数据分析和可视化功能则以包(packages)的形式提供,资源极其丰富
R具有强大的数据可视化能力,高质量的图像输出工具以及多种现代绘图系统:
如grid, lattice, ggplot2等
扩展和开发能力,在R中可使用简洁的方式编写新的统计方法,甚至整合进其他语言编写的应用程序内。
也可以编制自己的函数,或制作独立的统计分析包,快速实现新算法
灵活,作为一种平台,方便与其他工具整合,实现数据分析流程化
自由、免费、源代码开放,与多数商业统计软件相比,R是完全免费的,它囊括了在其他软件中尚不可用的且先进的统计计算例程(类似于函数,但含义更为丰富,如API接口),是一个可进行交互式数据分析和探索的高自由度平台
R语言缺点
学习曲线陡峭:
因为其功能丰富,导致对应帮助文件较多,而由独立贡献者编写的部分模块则较零散难以完全掌握,初学者刚开始与代码打交道,需要记住大量常用命令,无疑提高学习难度。
需要大量计算资源:
所有的待处理数据通常需要全部读入内存后才能处理,因此不适合分析超大规模的数据。
运行速度稍慢:
即时编译,效率约相当于C语言的1/20。
R排名
图. R语言世界使用率2020年8月排名 https://www.tiobe.com/tiobe-index/
目前R语言是世界上最受欢迎的10大语言之一。而且近些年始终处于上升阶段,截止2020年8月位于用户使用率榜单的第8位,较去年同期使用人数近乎翻倍。特别是在生命科学领域,被认为是使用频率最高的语言。其用户主要集中于专业领域,目前在移动设备、网页中使用率较低,但随着云端计算平台的发展,便携式移动端也是R未来的发展方向。
R语言统计绘图实战
R软件下载安装
R语言 https://www.r-project.org
Rstudio编程集成开发环境(IDE,Integrated Development Environment) https://www.rstudio.com
RStudio是一款R语言的IDE,R自带的环境操作较为复杂,而RStudio很好地解决了该问题,而且它还具有调试、可视化等功能,支持纯R脚本、Rmarkdown (脚本文档混排)、Shiny (交互式网络应用)等。
具体安装和配置步骤,详见:
121个人电脑搭建微生物组分析平台(Win/Mac)