《R语言数据处理与特征工程实用指南》
1. 数据类型差异
在R语言中,tibbles和数据框存在一些明显差异。tibbles不会默认将字符串转换为因子(stringsAsFactors = TRUE),而在R 4.0版本发布之前,基础R默认会进行这样的转换,这有时会导致一些混淆和编程错误。另外,只要列名用反引号( )括起来,tibbles可以使用违反基础R对象命名规则的非标准列名,如 my var`。
2. 快速读取矩形文件
为了将数据加载到tibble格式中,有比使用 read.csv() 函数更快捷直接的方法。tidyverse中的 readr 包(https://readr.tidyverse.org )可用于加载表格数据。其提供的 read_csv() 函数和基础R的 read.csv() 功能类似,但速度更快,大约快10倍,并且在处理列格式方面更智能,例如能处理带货币符号的数字、解析日期列以及更好地处理国际数据。
操作步骤如下:
library(readr) # 如果已经加载了tidyverse,则不需要此步骤
titanic_train <- read_csv("titanic_train.csv")
此操作会使用默认解析设置,尝试推断每列的正确数据类型。读取完成后,列规范会显示在R输出中。若要覆盖推断的数据类型,可通过 col() 函数调用将正确的列规范传递给
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



