1. 使用split 命令拆分大文件
在Linux中,对于大文件不好处理时,一般用split命令来将其切割成若干小文件,速度非常快,(2G文件拆分成4个,基本秒出)
spilt可以分为按指定行数或指定大小来切割文件
# 每个文件100行
split -l 100 aa.txt prefix_
# 每个文件100M
split -b 100m aa.txt prefix_
生成的新文件的文件名是prefix_后面加上按照aa,ab,ac……来排序的;
比如aa.txt文件有3G,以1G大小切分,那么会切割出3个文件,文件名分别是prefix_aa,prefix_ab,prefix_ac,没有扩展名;
如果不设置新文件名,系统默认新文件以字母x开头(xaa,xab,xac)
# 常用的一些参数
-d 用数字作后缀
-a 指定后缀的长度
# 将aa.txt按100k大小进行切割,使用3位数字作为后缀
split -b 100k aa.txt -d -a 3
aa.txt x000 x001 x002 x003
#为子文件指定文件名的前缀zz:
split -b 100k aa.txt -d -a 3 zz
aa.txt zz000 zz001 zz002 zz003
2. 转换文件编码方式
将GB2312格式编码的aa.txt文件,改为utf8编码
iconv -f GB2312 -t utf8 aa.txt
3. 文件压缩、解压缩
3.1 bzip2方式 -j
压缩效果比较好

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



