目录
31. shell命令--split
功能说明
split 是 Linux 中的一个实用程序,用于将大文件分割成较小的文件。这在处理大文件时特别有用,特别是当您需要将文件分成多个部分以进行并行处理或传输时。
split 命令来自英文单词“分裂”,其功能是用于分割文件内容。Linux 系统运维人员可以使用 split 命令对指定的大文件进行内容分割,默认会按照每 1000 行切割成一个小文件来执行,也可以自定义分割大小,方便阅读和传输。
语法格式
SYNOPSIS
split [OPTION]... [INPUT [PREFIX]]
OPTION:这是 split 命令的选项,用于控制如何分割文件。
INPUT:要分割的文件。如果省略,则从标准输入读取。
PREFIX:输出文件名的前缀。如果省略,则默认为 x。
选项说明
-数字:设置要分割的行数
-b, --bytes=SIZE:将文件分割为 SIZE 大小的文件块。SIZE 可以是以下单位之一:K, M, G, T, P, E, Z, Y(分别表示千字节、兆字节、吉字节等)。例如,-b 10M 将文件分割为 10MB 大小的文件。
-C, --line-bytes=SIZE:尝试将文件分割为 SIZE 大小的文件块,但尽量保持每行的完整性。
-l, --lines=NUMBER:将文件分割为每个文件包含 NUMBER 行的文件。
-a, --suffix-length=N:使用 N 个字符的后缀来生成输出文件名。默认是 2 个字符。
-d, --numeric-suffixes:使用数字后缀而不是字母后缀。这在使用 -a 选项时特别有用。
-t:设置间隔符。
--verbose:在输出文件名时显示进度信息。
--help:显示帮助信息。
--version:显示版本信息。
实践操作
0. 环境准备
mkdir -p /test/split
cd /test/split
yes "test" | head -c 30M > 30MB_file.txt
yes test |head -600 > 600line_file.txt
wc -l 600line_file.txt
ls -lh 30MB_file.txt
1. 默认分割以及指定分割行数
ls
seq 10 |split
ls
cat xaa
seq 10 |split -l 3
ls
head -v xa*
cat xa* >file1.txt
cat file1.txt
ls
rm -rf xa*
ls
split -5 file1.txt test_
ls
head -v test_a*
2. 将文件按大小分割为每个文件
ls -lh 30MB_file.txt
split -b 10M 30MB_file.txt 10MB_file.
ls -lh 10MB_file.a*
3. 将文件按行分割为每个文件
split -l 200 600line_file.txt 200line_file.
wc -l 200line_file.a*
4. 使用 3 个字符的数字后缀和每个文件 5MB 的大小来分割
split -b 5M -a 3 -d 30MB_file.txt 5M_file
ls -lh 5M_file.00*
ll
#注意:split 命令不会删除原始文件,只是创建新的分割文件。
#如果您需要删除原始文件,请使用其他命令(如 rm)手动执行此操作。
注意事项
1. 自定义输出文件的后缀格式
使用 -a 和 -d 选项可以自定义输出文件的后缀格式。但除了数字后缀,你还可以结合其他字符或字符串来创建更有意义的文件名。
例如,如果你希望将文件分割为 part-001, part-002 等格式,你可以这样做:
split -b 1M -a 3 -d largefile.txt 'part-'
2. 保留原始文件的行完整性
当使用 -b 选项时,split 命令可能会在行的中间进行分割,这可能会导致某些行被分割到两个或多个不同的文件中。如果你希望尽量保持每行的完整性,可以使用 -C 选项。但是请注意,这可能会导致某些文件的大小超过指定的 SIZE。
3. 过滤和重定向
split 命令经常与其他命令(如 grep, awk, sed 等)结合使用,以便对分割后的文件进行进一步处理。你也可以使用重定向操作符(> 或 >>)将 split 的输出直接写入其他文件或设备。
4. 合并分割后的文件
一旦你使用 split 命令将文件分割为多个部分,你可能需要再次将它们合并回原始文件。虽然 split 命令本身不提供合并功能,但你可以使用 cat 命令轻松实现这一点。
例如,如果你将 largefile.txt 分割为 fileaa, fileab, fileac 等文件,你可以使用以下命令将它们合并回原始文件:
cat fileaa* > merged_largefile.txt
注意:上述命令假设所有分割后的文件都以 fileaa 开头,并且你想要将它们全部合并。如果你的文件名模式不同,你需要相应地调整命令。
5. 处理大文件时的注意事项
当处理非常大的文件时(特别是那些超过系统内存或磁盘空间限制的文件),你需要格外小心。确保你的系统有足够的资源来处理这些文件,并考虑使用其他工具或技术(如流式处理或分布式文件系统)来更有效地处理它们。
最后,尽管 split 命令在处理大文件时非常有用,但它并不是唯一的解决方案。根据你的具体需求和环境,可能有其他更适合你的工具或方法。