Miller数据处理工具完全指南:像awk/sed一样处理CSV/JSON数据

Miller数据处理工具完全指南:像awk/sed一样处理CSV/JSON数据

miller Miller is like awk, sed, cut, join, and sort for name-indexed data such as CSV, TSV, and tabular JSON miller 项目地址: https://gitcode.com/gh_mirrors/mi/miller

什么是Miller

Miller是一款功能强大的命令行数据处理工具,它专为处理名称索引数据(如CSV、JSON等表格数据)而设计。Miller将传统Unix工具(如awk、sed、cut、join和sort)的功能集于一身,但针对键值对数据结构进行了优化。

与处理整数索引字段的传统工具不同,Miller的自然数据结构是插入有序的哈希映射(insertion-ordered hash map),这使得它能够优雅地处理各种结构化数据格式。

核心特点

  1. 多格式支持:原生支持CSV、TSV、JSON、JSON Lines、PPRINT、Markdown表格、XTAB、DKVP和NIDX等多种数据格式
  2. 链式操作:通过"then"关键字将多个操作串联起来,形成数据处理流水线
  3. 丰富的数据处理能力:提供过滤、排序、统计、转换等80多种内置操作(verbs)
  4. 灵活的函数系统:包含200多个内置函数,支持复杂的数据计算和转换

基本用法

Miller的基本命令结构为:

mlr [flags] {verb} [verb-dependent options ...] [file1 file2 ...]

如果未指定输入文件,Miller会从标准输入读取数据。例如:

mlr --csv sort -f shape example.csv

链式操作示例:

mlr --csv stats1 -a min,mean,max -f quantity then sort -f color example.csv

支持的数据格式详解

1. CSV/TSV格式

apple,bat,cog
1,2,3
4,5,6
  • 第一行为标题行,后续每行对应一条记录
  • CSV使用逗号分隔,TSV使用制表符分隔

2. JSON格式

[
  {
    "apple": 1,
    "bat": 2,
    "cog": 3
  },
  {
    "dish": {
      "egg": 7,
      "flint": 8
    },
    "garlic": ""
  }
]
  • 支持标准的JSON数组对象格式
  • 支持嵌套数据结构

3. JSON Lines格式

{"apple": 1, "bat": 2, "cog": 3}
{"dish": {"egg": 7, "flint": 8}, "garlic": ""}
  • 每行一个独立的JSON对象
  • 适合处理大型数据集

4. PPRINT格式

apple bat cog
1     2   3
4     5   6
  • 美观的表格输出
  • 自动对齐列数据

5. DKVP格式

apple=1,bat=2,cog=3
dish=7,egg=8,flint
  • 键值对格式,Miller的默认格式
  • 每对键值用等号连接,多对之间用逗号分隔

实用功能特性

1. 注释处理

Miller支持在数据文件中添加注释,并提供了多种处理方式:

--pass-comments          # 直接输出注释行(以#开头)
--pass-comments-with {string}  # 输出指定前缀的注释行
--skip-comments          # 忽略注释行
--skip-comments-with {string}  # 忽略指定前缀的注释行

2. 压缩数据处理

Miller支持多种压缩数据文件的处理方式:

--bz2in       # 处理bzip2压缩文件(.bz2)
--gzin        # 处理gzip压缩文件(.gz)
--zin         # 处理zlib压缩文件(.z)
--zstdin      # 处理zstd压缩文件(.zstd)
--prepipe {command}  # 使用外部命令预处理文件

3. CSV/TSV特殊处理

针对CSV/TSV格式的特殊需求,Miller提供了多种选项:

--allow-ragged-csv-input  # 处理字段数不一致的行
--csv-trim-leading-space  # 去除CSV字段前的空格
--headerless-csv-output   # 不输出标题行
--implicit-csv-header     # 为无标题文件自动生成字段名(1,2,3...)
--lazy-quotes            # 宽松处理引号

常用命令速查

数据查看与基本操作

mlr --csv cat file.csv          # 查看CSV文件
mlr --icsv --opprint cat file.csv  # 以美观格式查看CSV
mlr --csv head -n 5 file.csv    # 查看前5行
mlr --csv tail -n 5 file.csv    # 查看后5行

数据筛选与过滤

mlr --csv filter '$color == "red"' file.csv  # 筛选color为red的记录
mlr --csv cut -f field1,field2 file.csv     # 提取指定字段
mlr --csv grep "pattern" file.csv           # 搜索包含模式的记录

数据排序

mlr --csv sort -f shape file.csv           # 按shape字段升序排序
mlr --csv sort -f shape -nr index file.csv # 按shape升序,index降序

数据转换与计算

mlr --csv put '$ratio = $quantity / $rate' file.csv  # 添加计算字段
mlr --csv stats1 -a min,mean,max -f quantity file.csv  # 计算统计量

学习资源

Miller提供了丰富的内置帮助系统,可以通过以下命令获取帮助:

mlr help topics        # 查看帮助主题列表
mlr help file-formats  # 查看文件格式说明
mlr help list-verbs    # 列出所有操作命令
mlr help usage-verbs   # 查看操作命令用法
mlr help list-functions # 列出所有函数

对于初学者,建议从mlr help basic-examples开始,查看基础用法示例。

总结

Miller是一个功能强大且灵活的数据处理工具,特别适合处理结构化表格数据。它将多种Unix工具的功能集成在一个统一的框架中,通过简洁的语法实现复杂的数据处理任务。无论是简单的数据查看、过滤,还是复杂的数据转换、统计分析,Miller都能高效完成。

通过掌握Miller,数据分析师和开发人员可以大幅提升处理CSV、JSON等结构化数据的效率,减少编写临时脚本的需求,使数据处理流程更加标准化和可维护。

miller Miller is like awk, sed, cut, join, and sort for name-indexed data such as CSV, TSV, and tabular JSON miller 项目地址: https://gitcode.com/gh_mirrors/mi/miller

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

方玉蜜United

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值