#!/usr/bin/perl
#批量分词
#该perl脚本要求调用deepfuture的简单中文分词器(http://deepfuture.iteye.com/blog/767313)
use 5.010;
use warnings;
use strict;
use File::Basename;
my $mydir='/home/deepfuture/xx'; #输入目录
my $myoutdir='/home/deepfuture/yy';#输出目录
my @list = glob("$mydir/*\.txt");
my $jd=1;
say '批量分词...........';
foreach my $mylist(@list){
$jd++;
my $outfile = basename $mylist;
$outfile =~ s/\..+$/\.seg/i;
say '-'x80;
say "正在处理$mylist,分词结果输出:$myoutdir/$outfile";
say '[='.'='x($jd/scalar(@list)*100).'>'.'.'x(100-$jd/scalar(@list)*100).']';
system("./zwfc.sh $mylist $myoutdir/$outfile");
say '';
}
本文介绍了一个使用Perl编写的批量分词脚本,该脚本可以读取指定目录下的所有.txt文件,并利用deepfuture的简单中文分词器进行分词处理,最后将结果保存到另一个指定目录。
360

被折叠的 条评论
为什么被折叠?



