46、《R语言数据处理与特征工程实用指南》

《R语言数据处理与特征工程实用指南》

1. 数据类型差异

在R语言中,tibbles和数据框存在一些明显差异。tibbles不会默认将字符串转换为因子(stringsAsFactors = TRUE),而在R 4.0版本发布之前,基础R默认会进行这样的转换,这有时会导致一些混淆和编程错误。另外,只要列名用反引号( )括起来,tibbles可以使用违反基础R对象命名规则的非标准列名,如 my var`。

2. 快速读取矩形文件

为了将数据加载到tibble格式中,有比使用 read.csv() 函数更快捷直接的方法。tidyverse中的 readr 包(https://readr.tidyverse.org )可用于加载表格数据。其提供的 read_csv() 函数和基础R的 read.csv() 功能类似,但速度更快,大约快10倍,并且在处理列格式方面更智能,例如能处理带货币符号的数字、解析日期列以及更好地处理国际数据。
操作步骤如下:

library(readr) # 如果已经加载了tidyverse,则不需要此步骤
titanic_train <- read_csv("titanic_train.csv")

此操作会使用默认解析设置,尝试推断每列的正确数据类型。读取完成后,列规范会显示在R输出中。若要覆盖推断的数据类型,可通过 col() 函数调用将正确的列规范传递给

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值