Missing Semester 项目：数据清洗的艺术与技术

薛靓璐Gifford

于 2025-06-08 09:06:05 发布

阅读量386

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_01081/article/details/148506282

Missing Semester 项目：数据清洗的艺术与技术

missing-semester The Missing Semester of Your CS Education 📚 项目地址: https://gitcode.com/gh_mirrors/mi/missing-semester

数据清洗（Data Wrangling）是数据处理中至关重要的一环，它涉及将原始数据转换为更有用、更结构化的形式。本文将深入探讨数据清洗的核心概念和技术，特别关注命令行工具在数据处理中的强大应用。

数据清洗基础

数据清洗的本质在于将数据从一种形式转换为另一种形式，直到获得我们想要的结果。想象一下，你有一堆杂乱的日志数据，需要从中提取有价值的信息——这正是数据清洗的用武之地。

基本数据清洗流程

一个典型的数据清洗流程通常包括以下步骤：

数据获取：从日志文件、数据库或其他来源获取原始数据
初步过滤：使用grep等工具筛选相关行
数据提取：使用sed、awk等工具提取特定字段
数据转换：对提取的数据进行格式化或计算
结果分析：统计、排序或可视化最终结果

核心工具详解

grep：文本搜索利器

grep是最基础也是最重要的文本搜索工具，它可以快速筛选出包含特定模式的行：

journalctl | grep sshd

这个命令会筛选出所有包含"sshd"的日志条目。grep支持多种选项：

-i：忽略大小写
-v：反向匹配（显示不匹配的行）
-E：使用扩展正则表达式

sed：流编辑器

sed（Stream Editor）是一个强大的文本处理工具，特别适合对数据流进行转换操作。其最常见的用法是替换操作：

sed 's/.*Disconnected from //'

这个命令会删除每行中"Disconnected from"及其之前的所有内容。sed的基本替换语法是：

s/正则表达式/替换文本/[标志]

常用标志：

g：全局替换（不只替换第一个匹配）
i：忽略大小写
数字：替换第n个匹配

awk：文本处理语言

awk不仅仅是一个命令，而是一门完整的文本处理语言。它特别适合处理结构化文本数据：

awk '{print $2}'

这个简单的awk程序会打印每行的第二个字段（默认以空格分隔）。awk的强大之处在于它支持条件判断、循环和变量等编程结构：

BEGIN {count=0}
$1 > 100 {count++}
END {print count}

这个程序会统计第一个字段大于100的行数。

正则表达式精要

正则表达式是数据清洗的核心技能之一。以下是一些关键概念：

.：匹配任意单个字符（除换行符）
*：匹配前一个元素零次或多次
+：匹配前一个元素一次或多次
?：匹配前一个元素零次或一次
[]：字符集，匹配其中任意一个字符
()：分组，可用于捕获或应用量词
^和$：分别匹配行首和行尾

贪婪匹配陷阱：默认情况下，*和+是"贪婪"的，会尽可能匹配更多字符。在某些情况下，这可能导致意外结果。可以通过添加?来改为非贪婪匹配（如*?）。

实用数据处理技巧

数据统计与分析

计数与去重：
```
sort | uniq -c
```
这会先排序数据，然后统计每类数据的出现次数。
数值排序：
```
sort -n
```
按数值而非字母顺序排序。

提取前N项：

head -n10  # 前10项
tail -n10  # 后10项

数学运算

简单求和：
```
paste -sd+ | bc -l
```
将数字列表转换为加法表达式，然后通过bc计算器求值。
复杂表达式：
```
echo "2*($(data | paste -sd+))" | bc -l
```
可以在表达式中嵌入其他命令的结果。

数据可视化

使用R进行统计分析：
```
R --slave -e 'x <- scan(file="stdin", quiet=TRUE); summary(x)'
```
这会计算输入数据的统计摘要（最小值、四分位数、平均值等）。
使用gnuplot绘制简单图表：
```
gnuplot -p -e 'set boxwidth 0.5; plot "-" using 1:xtic(2) with boxes'
```
这会生成一个柱状图，使用第一列作为高度，第二列作为标签。

实战案例：分析SSH登录尝试

让我们通过一个完整的例子来展示数据清洗的全过程：分析服务器上的SSH登录尝试。

ssh myserver journalctl \
 | grep sshd \
 | grep "Disconnected from" \
 | sed -E 's/.*Disconnected from (invalid |authenticating )?user (.*) [^ ]+ port [0-9]+( \[preauth\])?$/\2/' \
 | sort | uniq -c \
 | sort -nk1,1 \
 | tail -n10 \
 | awk '{print $2}' \
 | paste -sd,

这个复杂的管道完成了以下操作：