R语言处理 1G~10G 的数据可以选择使用 bigmemory,超过 10G 可以考虑 RHadoop
1:安装bigmemory
>install.packages('bigmemory')
2:bigmemory的基本使用
1)初始化一个big.matrix对象:
//nrow:行数 ncol:列数 type:数据类型(矩阵所有数据类型必须是一样的) init:初始化数据
//dinnames:list对象(两列),第一列表述行标识,第二列表示列标识 backingfile:备份数据 descriptorfile:描述文件
> bigData <- big.matrix(nrow=10, ncol=4, type='integer', init=2, dimnames=list(1:10,c('c1','c2', 'c3', 'c4')),
backingfile='bigData.bin', descriptorfile='bigData.desc')
> bigData[1:10]
c1 c2 c3 c4
1 2 2 2 2
2 2 2 2 2
3 2 2 2 2
4 2 2 2 2
5 2 2 2 2
6 2&nbs

本文介绍了R语言中处理大内存数据的方法,重点聚焦于bigmemory包的使用。通过安装和配置bigmemory,可以有效地应对1G到10G的数据处理挑战,对于超过10G的大数据,作者建议考虑结合RHadoop进行处理。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



