使用命令拆分Json数组为多个文件

前提:大概手上有一百多万条文本数据以及对应的关键词(包括抽象关键词)。要把其中的抽象关键词过滤掉,这样清洗以后的样本可以用于关键词标注模型。数据太多,想要脚本控制并行处理,需要拆分数据,但数据本身是json格式存储的,没法用split直接拆分。

一. split拆分文件

使用split命令

split --lines 50000 xxx.txt xxx/xxx_

后检查文件夹无任何新文件生成,拆分失败。

二. 安装json解析器jq

jq 可以对json数据进行分片、过滤、映射以及转换。

sudo apt-get install jq

安装json解析器jq

三. jq使用

  1. 不改变输入,仅将其输出
jq or jq '.'

不改变输出
如果输入是文件:

cat xxx.txt | jq

or

cat xxx.txt 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值