有时候会需要对大文件进行并行处理.
对于文本文件,需要保证行的完整性.
一种是快速跳过不需要的行
#!/bin/env perl
use strict;
my $m=$ARGV[0]; #分成m份
my $l=$ARGV[1]; #第l份
my $file="test1.txt";
#my $line=`wc -l $file`;
#my ($linenum)=$line=~/(\d+)/;
my $linenum=10;
my $n=int($linenum/$m); #每份做n行
open( READ, "<$file" );
my $i=0;
while (<READ>) {
#print $i;
if ($i>=($l-1)*$n){
&doit();
}
$i++;
last if ($i>=$l*$n || $i>linenum)
}
sub doit(){
print $_;
}
close READ;
改进一些的方法是使用seek,但是需要处理不完整行,可以让前一个进程多处理一行,后一个进程少处理一行
#!/bin/env perl
use strict;
my $m=$ARGV[0]; #分成m份
my $l=$ARGV[1]; #第l份
my $file="test1.txt";
my @args = stat ($file);
my $size = $args[7];
my $n=int($size/$m); #每份做nbytes
open( READ, "<$file" );
seek READ,(($l-1)*$n),0;
#非第一份,少读第一行
if($l>1){
my $tmpline = <READ>;
}
while (<READ>) {
&doit();
my $position = tell(READ);
last if ($position> $l*$n || $position>=$size); #多读一行
}
sub doit(){
print $_;
}
close READ;