作者:黄天元,复旦大学博士在读,热爱数据科学与开源工具(R),致力于利用数据科学迅速积累行业经验优势和科学知识发现,涉猎内容包括但不限于信息计量、机器学习、数据可视化、应用统计建模、知识图谱等,著有《R语言高效数据处理指南》(《R语言数据高效处理指南》(黄天元)【摘要 书评 试读】- 京东图书)。知乎专栏:R语言数据挖掘。邮箱:huang.tian-yuan@qq.com.欢迎合作交流。
作为一个经过时间考验的成熟的R包,data.table在7.31迎来了在2020年的第一个新版本(今晚无意去check,没想到已经更新了)。于此,tidyfst可以继续开工做更多的更新了。data.table这次更改的主要内容涵盖:
1、fread支持读日期,并自动转化为data.table自身支持的IDate类型。
2、fcase问世,吊打case_when。迟一些tidyfst会推出匹配函数方便用tidy的模式(大同小异)。
3、setnames可以不设置old参数,默认则为所有列的名称
4、nafill和setnafill会自动填充NaN,以前只填充NA
5、.SDcols支持is.numeric来自动选择数值变量,这一点tidyfst的select_dt早就支持了,因此不需要做修改
6、增加了.NGRP来返回组内条目个数
很多更新,其实并不需要去特别注意,因为都内置升级了。关于充分详尽的说明,见:
https://github.com/Rdatatable/data.table/blob/master/NEWS.mdgithub.com