Miller数据处理工具完全指南：像awk/sed一样处理CSV/JSON数据-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00106/article/details/148418789

Miller数据处理工具完全指南：像awk/sed一样处理CSV/JSON数据

miller Miller is like awk, sed, cut, join, and sort for name-indexed data such as CSV, TSV, and tabular JSON 项目地址: https://gitcode.com/gh_mirrors/mi/miller

什么是Miller

Miller是一款功能强大的命令行数据处理工具，它专为处理名称索引数据（如CSV、JSON等表格数据）而设计。Miller将传统Unix工具（如awk、sed、cut、join和sort）的功能集于一身，但针对键值对数据结构进行了优化。

与处理整数索引字段的传统工具不同，Miller的自然数据结构是插入有序的哈希映射(insertion-ordered hash map)，这使得它能够优雅地处理各种结构化数据格式。

核心特点

多格式支持：原生支持CSV、TSV、JSON、JSON Lines、PPRINT、Markdown表格、XTAB、DKVP和NIDX等多种数据格式
链式操作：通过"then"关键字将多个操作串联起来，形成数据处理流水线
丰富的数据处理能力：提供过滤、排序、统计、转换等80多种内置操作(verbs)
灵活的函数系统：包含200多个内置函数，支持复杂的数据计算和转换

基本用法

Miller的基本命令结构为：

mlr [flags] {verb} [verb-dependent options ...] [file1 file2 ...]

如果未指定输入文件，Miller会从标准输入读取数据。例如：

mlr --csv sort -f shape example.csv

链式操作示例：

mlr --csv stats1 -a min,mean,max -f quantity then sort -f color example.csv

支持的数据格式详解

1. CSV/TSV格式

apple,bat,cog
1,2,3
4,5,6

第一行为标题行，后续每行对应一条记录
CSV使用逗号分隔，TSV使用制表符分隔

2. JSON格式

[
  {
    "apple": 1,
    "bat": 2,
    "cog": 3
  },
  {
    "dish": {
      "egg": 7,
      "flint": 8
    },
    "garlic": ""
  }
]

支持标准的JSON数组对象格式
支持嵌套数据结构

3. JSON Lines格式

{"apple": 1, "bat": 2, "cog": 3}
{"dish": {"egg": 7, "flint": 8}, "garlic": ""}

每行一个独立的JSON对象
适合处理大型数据集

4. PPRINT格式

apple bat cog
1     2   3
4     5   6

美观的表格输出
自动对齐列数据

5. DKVP格式

apple=1,bat=2,cog=3
dish=7,egg=8,flint

键值对格式，Miller的默认格式
每对键值用等号连接，多对之间用逗号分隔

实用功能特性

1. 注释处理

Miller支持在数据文件中添加注释，并提供了多种处理方式：

--pass-comments          # 直接输出注释行(以#开头)
--pass-comments-with {string}  # 输出指定前缀的注释行
--skip-comments          # 忽略注释行
--skip-comments-with {string}  # 忽略指定前缀的注释行

2. 压缩数据处理

Miller支持多种压缩数据文件的处理方式：

--bz2in       # 处理bzip2压缩文件(.bz2)
--gzin        # 处理gzip压缩文件(.gz)
--zin         # 处理zlib压缩文件(.z)
--zstdin      # 处理zstd压缩文件(.zstd)
--prepipe {command}  # 使用外部命令预处理文件

3. CSV/TSV特殊处理

针对CSV/TSV格式的特殊需求，Miller提供了多种选项：

--allow-ragged-csv-input  # 处理字段数不一致的行
--csv-trim-leading-space  # 去除CSV字段前的空格
--headerless-csv-output   # 不输出标题行
--implicit-csv-header     # 为无标题文件自动生成字段名(1,2,3...)
--lazy-quotes            # 宽松处理引号

常用命令速查

数据查看与基本操作

mlr --csv cat file.csv          # 查看CSV文件
mlr --icsv --opprint cat file.csv  # 以美观格式查看CSV
mlr --csv head -n 5 file.csv    # 查看前5行
mlr --csv tail -n 5 file.csv    # 查看后5行

数据筛选与过滤

mlr --csv filter '$color == "red"' file.csv  # 筛选color为red的记录
mlr --csv cut -f field1,field2 file.csv     # 提取指定字段
mlr --csv grep "pattern" file.csv           # 搜索包含模式的记录

数据排序

mlr --csv sort -f shape file.csv           # 按shape字段升序排序
mlr --csv sort -f shape -nr index file.csv # 按shape升序，index降序

数据转换与计算

mlr --csv put '$ratio = $quantity / $rate' file.csv  # 添加计算字段
mlr --csv stats1 -a min,mean,max -f quantity file.csv  # 计算统计量

学习资源

Miller提供了丰富的内置帮助系统，可以通过以下命令获取帮助：

mlr help topics        # 查看帮助主题列表
mlr help file-formats  # 查看文件格式说明
mlr help list-verbs    # 列出所有操作命令
mlr help usage-verbs   # 查看操作命令用法
mlr help list-functions # 列出所有函数

对于初学者，建议从mlr help basic-examples开始，查看基础用法示例。