大文件sort

先对文件按行split

split -l 100000000 file #以一亿行分割,每行10个字符的文件,大约800M

然后sort

#!/bin/sh
for file in `ls x*`
do 
        sort $file -T /home/xxx > $file.sort 
##重点在这的-T设置tmp参数,sort是会写缓存文件的工具,不会
##一次性读取文件到内存,所以内存大小无所谓,但是默认会写系统区,可能造成系统区空间不够
##所以找个比较大的地方放
done
sort -m `ls *.sort` > result

其实直接sort也是可以的,有-T就行了对付上G的文件没问题,会跑满cpu但是内存占用只有0.几

sort之后的文件可以直接uniq,uniq的速度是极其快的,一亿行的文件sort需时40分钟,uniq只需不到2分钟

转载于:https://my.oschina.net/lovejoy/blog/70465

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值