前言
最近从一个 python 下的 anndata 中提取一个特殊处理过的单细胞矩阵,想读入R用来画图(个人比较喜欢用R可视化 ),保存之后,大概几个G的CSV文件,如果常规方法读入R,花费的时间比较久,就想到用 fread
这个函数(data.table
工具内函数)。在R语言中处理大规模数据时,data.table包是一个强大而高效的工具。它不仅能够快速处理大型数据集,还提供了简洁的语法和丰富的功能。简单总计热data.table
的基本操作、常用函数,以及两个实用的操作符:%like%和%between%。
1. data.table的基本操作
1.1 创建data.table
首先,让我们看看如何创建一个data.table:
library(data.table)
# 从已有数据框创建
df <- data.frame(id = 1:5, name = c("A", "B", "C", "D", "E"))
dt <- as.data.table(df)
# 直接创建
dt <- data.table(id = 1:5, name = c("A", "B", "C", "D", "E"))
# 从文件读取
dt <- fread("path/to/your/file.csv")
1.2 基本语法
data.table的基本语法是DT[i, j, by]
,其中:
i
:用于选择行j
:用于选择列或进行计算by
:用于分组操作
例如:
# 创建示例数据
dt <- data.table(
id = 1