R 语言学习笔记 —— bigmomery使用

原创

于 2014-03-12 19:11:12 发布 · 9.6k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#r语言

本文介绍了R语言中处理大内存数据的方法，重点聚焦于bigmemory包的使用。通过安装和配置bigmemory，可以有效地应对1G到10G的数据处理挑战，对于超过10G的大数据，作者建议考虑结合RHadoop进行处理。

R语言处理 1G～10G 的数据可以选择使用 bigmemory，超过 10G 可以考虑 RHadoop

1：安装bigmemory

>install.packages('bigmemory')

2：bigmemory的基本使用

1)初始化一个big.matrix对象:
//nrow:行数    ncol:列数    type:数据类型（矩阵所有数据类型必须是一样的）    init:初始化数据    
//dinnames:list对象（两列），第一列表述行标识，第二列表示列标识    backingfile:备份数据   descriptorfile:描述文件
> bigData <- big.matrix(nrow=10, ncol=4, type='integer', init=2, dimnames=list(1:10,c('c1','c2', 'c3', 'c4')), 
                        backingfile='bigData.bin', descriptorfile='bigData.desc')
> bigData[1:10]
   c1 c2 c3 c4
1   2  2  2  2
2   2  2  2  2
3   2  2  2  2
4   2  2  2  2
5   2  2  2  2
6   2&nbs