数据清洗与转换:从文本到结构化数据
在数据处理过程中,清洗和转换数据是至关重要的步骤。本文将介绍一些常见的数据处理操作,包括过滤行、提取值、替换和删除值,以及处理不同格式的数据,如 CSV、HTML/XML 和 JSON。
过滤行
过滤行是数据清洗的第一步,它可以根据行的位置、内容或随机性来筛选数据。
基于位置过滤
可以使用 head 、 sed 或 awk 来打印文件的前几行或后几行。例如,要打印文件的前 3 行,可以使用以下命令:
$ < lines head -n 3
$ < lines sed -n '1,3p'
$ < lines awk 'NR<=3'
要打印文件的后 3 行,可以使用 tail 命令:
$ < lines tail -n 3
还可以删除文件的前几行或后几行,例如删除前 3 行:
$ < lines tail -n +4
$ < lines sed '1,3d'
$ < lines sed -n '1,3!p'
删除后 3 行:
$ < l
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



