需求:有一个很大的文件想要每隔一定的行数,抽取出一行。经常应用于将文件拆成训练集和开发集。
awk '{if (NR%1333 == 0) print $0; }' train.all > valid.en
awk '{if (NR%1333 != 0) print $0; }' train.all > train.en
注:这里是每隔1333行就抽取一条数据作为valid.en文件的内容,可以根据需要进行修改。
本文介绍了一种利用awk命令处理大型文件的方法,通过每隔特定行数抽取数据来拆分文件,适用于创建训练集和验证集。示例展示了如何设置awk命令以实现这一目标。
需求:有一个很大的文件想要每隔一定的行数,抽取出一行。经常应用于将文件拆成训练集和开发集。
awk '{if (NR%1333 == 0) print $0; }' train.all > valid.en
awk '{if (NR%1333 != 0) print $0; }' train.all > train.en
注:这里是每隔1333行就抽取一条数据作为valid.en文件的内容,可以根据需要进行修改。
1042
673
769