前提:大概手上有一百多万条文本数据以及对应的关键词(包括抽象关键词)。要把其中的抽象关键词过滤掉,这样清洗以后的样本可以用于关键词标注模型。数据太多,想要脚本控制并行处理,需要拆分数据,但数据本身是json格式存储的,没法用split直接拆分。
一. split拆分文件
使用split命令
split --lines 50000 xxx.txt xxx/xxx_
后检查文件夹无任何新文件生成,拆分失败。
二. 安装json解析器jq
jq 可以对json数据进行分片、过滤、映射以及转换。
sudo apt-get install jq
三. jq使用
- 不改变输入,仅将其输出
jq or jq '.'
如果输入是文件:
cat xxx.txt | jq
or
cat xxx.txt