用《R数据科学》学习一套数据处理语法

本书介绍tidyverse语法,由R语言社区领军人物Hadley Wickham创作,摒弃传统统计工具书的讲授方式,从实用的R包出发,带你重新认识R和数据科学。tidyverse是一套解决数据科学难题的动词集合,涵盖数据探索、处理、分析和呈现,适合现代数据科学家快速上手。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这套语法就叫 tidyverse,先用一套小抄 Cheat Sheet 来镇贴。

抛开社区讲语言都是耍流氓,比如说 Python 可以克隆 ggplot2 包,语法几乎一样,用起来不会有太大的差别,但克隆不了 ggplot2 的整个社区以及由社区所衍生出来的各种扩展包,比如我写的 ggtree,所以你在 Python 里用 ggplot2 还是会觉得少了点什么,差了那么点意思。

而做生信的我们是避免不了 R 的,因为有 Bioconductor 社区,在基因组学,特别是单细胞数据分析上,已经是独步江湖了。

要学 R,有基于 S 语言的上古资料(可怜我当年就看了不过这样的资料),有各种统计的史前资料(也被这种资料虐得死去活来),当然也有面向数据科学项目的现代资料,而这个分水岭离不开一个大神 Hadley Wickham。

《R语言数据科学》就是 Hadley 大神的作品,正如中文版的《R数据科学》的副标题写的:

  • 摒弃其他 R 语言工具书从头到尾讲统计的陋习

  • 从实用的 R 包出发,带你重新认识 R 和数据科学

这本书介绍了 tidyverse 语法,也就是一套解决各种数据科学难题的动词,全书分为五个部分:

  • 探索

  • 处理数据

  • 编程

  • 模型

  • 沟通

让你通过搭积木的方法对数据进行探索、处理、分析和呈现等。这是一本为现代人写的数据科学入门书,入手快,不需要太多时间去学习,为像你一样的懒人量身定制。

插播个话外音,在书中第9页说到:

ggplot2 只能同时使用六种形状,默认情况下,当使用这种图形属性时,多出的变量值将不会出现图中。

这个问题已经被我们团队解决,请移步《ggsymbol让点图样式更加丰富的R包

R语言社区领军人物著作

本书的目标是教会读者使用最重要的数据科学工具,从而为实施数据科学奠定坚实的基础。读完本书后,你将掌握R语言的精华,并能够熟练使用多种工具来解决各种数据科学难题。

每一章都按照这样的顺序组织内容:先给出一些引人入胜的示例,以便你可以整体了解这一章的内容,然后再深入细节。本书的每一节都配有习题,以帮助你实践所学到的知识。

图灵官方小店

享受低价折扣


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值