Miller数据处理工具完全指南:像awk/sed一样处理CSV/JSON数据
什么是Miller
Miller是一款功能强大的命令行数据处理工具,它专为处理名称索引数据(如CSV、JSON等表格数据)而设计。Miller将传统Unix工具(如awk、sed、cut、join和sort)的功能集于一身,但针对键值对数据结构进行了优化。
与处理整数索引字段的传统工具不同,Miller的自然数据结构是插入有序的哈希映射(insertion-ordered hash map),这使得它能够优雅地处理各种结构化数据格式。
核心特点
- 多格式支持:原生支持CSV、TSV、JSON、JSON Lines、PPRINT、Markdown表格、XTAB、DKVP和NIDX等多种数据格式
- 链式操作:通过"then"关键字将多个操作串联起来,形成数据处理流水线
- 丰富的数据处理能力:提供过滤、排序、统计、转换等80多种内置操作(verbs)
- 灵活的函数系统:包含200多个内置函数,支持复杂的数据计算和转换
基本用法
Miller的基本命令结构为:
mlr [flags] {verb} [verb-dependent options ...] [file1 file2 ...]
如果未指定输入文件,Miller会从标准输入读取数据。例如:
mlr --csv sort -f shape example.csv
链式操作示例:
mlr --csv stats1 -a min,mean,max -f quantity then sort -f color example.csv
支持的数据格式详解
1. CSV/TSV格式
apple,bat,cog
1,2,3
4,5,6
- 第一行为标题行,后续每行对应一条记录
- CSV使用逗号分隔,TSV使用制表符分隔
2. JSON格式
[
{
"apple": 1,
"bat": 2,
"cog": 3
},
{
"dish": {
"egg": 7,
"flint": 8
},
"garlic": ""
}
]
- 支持标准的JSON数组对象格式
- 支持嵌套数据结构
3. JSON Lines格式
{"apple": 1, "bat": 2, "cog": 3}
{"dish": {"egg": 7, "flint": 8}, "garlic": ""}
- 每行一个独立的JSON对象
- 适合处理大型数据集
4. PPRINT格式
apple bat cog
1 2 3
4 5 6
- 美观的表格输出
- 自动对齐列数据
5. DKVP格式
apple=1,bat=2,cog=3
dish=7,egg=8,flint
- 键值对格式,Miller的默认格式
- 每对键值用等号连接,多对之间用逗号分隔
实用功能特性
1. 注释处理
Miller支持在数据文件中添加注释,并提供了多种处理方式:
--pass-comments # 直接输出注释行(以#开头)
--pass-comments-with {string} # 输出指定前缀的注释行
--skip-comments # 忽略注释行
--skip-comments-with {string} # 忽略指定前缀的注释行
2. 压缩数据处理
Miller支持多种压缩数据文件的处理方式:
--bz2in # 处理bzip2压缩文件(.bz2)
--gzin # 处理gzip压缩文件(.gz)
--zin # 处理zlib压缩文件(.z)
--zstdin # 处理zstd压缩文件(.zstd)
--prepipe {command} # 使用外部命令预处理文件
3. CSV/TSV特殊处理
针对CSV/TSV格式的特殊需求,Miller提供了多种选项:
--allow-ragged-csv-input # 处理字段数不一致的行
--csv-trim-leading-space # 去除CSV字段前的空格
--headerless-csv-output # 不输出标题行
--implicit-csv-header # 为无标题文件自动生成字段名(1,2,3...)
--lazy-quotes # 宽松处理引号
常用命令速查
数据查看与基本操作
mlr --csv cat file.csv # 查看CSV文件
mlr --icsv --opprint cat file.csv # 以美观格式查看CSV
mlr --csv head -n 5 file.csv # 查看前5行
mlr --csv tail -n 5 file.csv # 查看后5行
数据筛选与过滤
mlr --csv filter '$color == "red"' file.csv # 筛选color为red的记录
mlr --csv cut -f field1,field2 file.csv # 提取指定字段
mlr --csv grep "pattern" file.csv # 搜索包含模式的记录
数据排序
mlr --csv sort -f shape file.csv # 按shape字段升序排序
mlr --csv sort -f shape -nr index file.csv # 按shape升序,index降序
数据转换与计算
mlr --csv put '$ratio = $quantity / $rate' file.csv # 添加计算字段
mlr --csv stats1 -a min,mean,max -f quantity file.csv # 计算统计量
学习资源
Miller提供了丰富的内置帮助系统,可以通过以下命令获取帮助:
mlr help topics # 查看帮助主题列表
mlr help file-formats # 查看文件格式说明
mlr help list-verbs # 列出所有操作命令
mlr help usage-verbs # 查看操作命令用法
mlr help list-functions # 列出所有函数
对于初学者,建议从mlr help basic-examples
开始,查看基础用法示例。
总结
Miller是一个功能强大且灵活的数据处理工具,特别适合处理结构化表格数据。它将多种Unix工具的功能集成在一个统一的框架中,通过简洁的语法实现复杂的数据处理任务。无论是简单的数据查看、过滤,还是复杂的数据转换、统计分析,Miller都能高效完成。
通过掌握Miller,数据分析师和开发人员可以大幅提升处理CSV、JSON等结构化数据的效率,减少编写临时脚本的需求,使数据处理流程更加标准化和可维护。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考