Linux文本工具grep,sed,awk深入解析与实战应用-优快云博客

一、Linux文本三剑客---grep、sed、awk

4.awk内置变量

FS ：输入字段分隔符，默认为空白字符
OFS ：输出字段分隔符，默认为空白字符
RS ：输入记录分隔符，指定输入时的换行符，原换行符仍有效
ORS ：输出记录分隔符，输出时用指定符号代替换行符
NF ：字段数量，共有多少字段， $NF引用最后一列，$(NF-1)引用倒数第2列
NR ：行号，后可跟多个文件，第二个文件行号继续从第一个文件最后行号开始
FNR ：各文件分别计数, 行号，后跟一个文件和NR一样，跟多个文件，第二个文件行号从1开始
FILENAME ：当前文件名
ARGC ：命令行参数的个数
ARGV ：数组，保存的是命令行所给定的各参数，查看参数

5.高阶用法

（4）显示每一行的每个单词和其长度

[root@along ~]# awk -F: '{for(i=1;i<=NF;i++) {print$i,length($i)}}' awkdemo
hello 5
world 5
linux 5
redhat 6
lalala 6
hahaha 6
along 5
love 4
you 3
---求男m、女f各自的平均

#NF：列数 横向处理

（6）去重

[root@along ~]# cat awkdemo2
aaa
bbbb
aaa
123
123
123

---去除重复的行 走到第一行，$0就是第一行，然后取出aaa放入数组，在数组中无值，就取不出来，为假（0），进行取反，0变1，awk为真的数据会打印。
[root@along ~]# awk '!arr[$0]++' awkdemo2
aaa
bbbb
123
可以去重，是key不是value



---打印文件内容，和该行重复第几次出现 取反不会影响数组中的值，只有再++的时候值才会改变
第一次进来false，取反true，（++，加完一以后往下走一行才打印），打印了aaa 1，aaa再过来时，取反成负数，不影响值，值还是1，往下走成2（等于是在++以后进行统计）
[root@along ~]# awk '{!arr[$0]++;print $0,arr[$0]}' awkdemo2
aaa 1
bbbb 1
aaa 2
123 1
123 2
123 3
分析：arr['aaa']为假 取反为真 1 aaa=2
     arr['aaa']为真，取反为假 0

二、awk经典案例

1.统计TCP连接状态数量

（1）netstat

$ netstat -tnap

-t或--tcp：显示TCP传输协议的连线状况；

-n或--numeric：直接使用ip地址，而不通过域名服务器；

-a或--all：显示所有连线中的Socket；

-p或--programs：显示正在使用Socket的程序识别码和程序名称；

（2）相关命令

netstat -antp | awk '{arr[$6]++}END{for (i in arr){print arr[i], i}}'
netstat -antp | grep 'tcp' | awk '{print $6}' | sort | uniq -c

netstat -tna | awk '/^tcp/{arr[$6]++}END{for(state in arr){print arr[state] ": " state}}'
netstat -tna | /usr/bin/grep 'tcp' | awk '{print $6}' | sort | uniq -c

（3）实例

2.筛选给定时间范围内的日志

（1）mktime函数

grep/sed/awk用正则去筛选日志时，如果要精确到小时、分钟、秒，则非常难以实现。

但是awk提供了mktime()函数，它可以将时间转换成epoch时间值。

# 2019-11-10 03:42:40转换成epoch为1970-01-01 00:00:00
$ awk 'BEGIN{print mktime("2019 11 10 03 42 40")}'

借此，可以取得日志中的时间字符串部分，再将它们的年、月、日、时、分、秒都取出来，然后放入mktime()构建成对应的epoch值。因为epoch值是数值，所以可以比较大小，从而决定时间的大小。

（2） epoch

UNIX及Linux的时间系统是由「新纪元时间」Epoch开始计算起，单位为秒，Epoch则是指定为1970年一月一日凌晨零点零分零秒，格林威治时间。

目前大部份的UNIX系统都是用32位元来记录时间，正值表示为1970以後，负值则表示1970年以前。我们可以很简单地计算出其时间领域：

2^31/86400(s) = 24855.13481(天) ~ 68.0958(年)

1970+68.0958 = 2038.0958
1970-68.0958 = 1901.9042

时间领域为[1901.9042,2038.0958]。

（3）实例分析

将2022-12-02T00:00:00+08:00格式的字符串转换成epoch值，然后和which_time比较大小即可筛选出精确到秒的日志。

BEGIN{
  # 要筛选什么时间的日志，将其时间构建成epoch值
  which_time = mktime("2022 12 02 00 00 00")
}

{
  # 取出日志中的日期时间字符串部分
  match($0,"^.*\\[(.*)\\].*",arr)
 
  # 将日期时间字符串转换为epoch值
  tmp_time = strptime2(arr[1])
 
  # 通过比较epoch值来比较时间大小
  if(tmp_time > which_time){
    print
  }
}

# 构建的时间字符串格式为："02/Dec/2022:00:00:00+08:00"
function strptime2(str,dt_str,arr,Y,M,D,H,m,S) {
  dt_str = gensub("[/:+]"," ","g",str)
  split(dt_str,arr," ")
  Y=arr[3]
  M=mon_map(arr[2])
  D=arr[1]
  H=arr[4]
  m=arr[5]
  S=arr[6]
  return mktime(sprintf("%s %s %s %s %s %s",Y,M,D,H,m,S))
}

function mon_map(str,mons){
  mons["Jan"]=1
  mons["Feb"]=2
  mons["Mar"]=3
  mons["Apr"]=4
  mons["May"]=5
  mons["Jun"]=6
  mons["Jul"]=7
  mons["Aug"]=8
  mons["Sep"]=9
  mons["Oct"]=10
  mons["Nov"]=11
  mons["Dec"]=12
  return mons[str]
}

①代码分析

a：awk全局替换函数(gsub/gensub)

gsub 是 AWK 中的一个函数，用于全局替换字符串中的子字符串。以下是 gsub 函数的语法：

gsub(regexp, replacement, target)

其中，regexp 表示要替换的字符串模式，可以是一个正则表达式；replacement 表示替换目标字符串的新内容；target 表示要操作的目标字符串。

gsub 函数会在 target 字符串中查找并替换所有与 regexp 匹配的子字符串，将其替换为 replacement 指定的内容，并返回替换的次数。如果 target 字符串中不存在与 regexp 匹配的子字符串，则 gsub 不进行任何操作，直接返回 0。

以下是一个示例：

$ echo "abracadabra" | awk '{gsub("a", "o"); print}'
obrocodobro

在这个例子中，我们将 gsub 函数应用于字符串 "abracadabra"。"a" 是被替换的目标字符串模式，"o" 是替换后的新内容。因此，gsub 函数将在字符串中查找所有的 "a"，并将它们替换为 "o"，最终输出结果为 "obrocodobro"。

b：awk 将日期时间字符串转换为时间：strptime2 ()

strftime([format [, timestamp [, utc-flag] ] ])：将时间按指定格式转换为字符串并返回转的结果字符串

strptime2（）函数转为 epoch值

c：mktime函数将日期时间信息转换为 epoch 值，方便直接比较时间了

d：match函数匹配正则表达式，取出日志中的日期时间字符串部分

e：函数内部通过 gensub函数匹配正则，将 “/ : +”替换成空格

f：使用 split函数，将字符串按照空格分隔，保存在 arr数组

g：mon_map函数，将月份的英文转换为数字，返回 mktime函数处理后的 epoch值