awk

本文介绍了如何使用Awk工具处理文本文件,包括基本命令、内置变量、语法结构及示例等,适合初学者快速上手。

用awk处理过一些文本,发现确实是一个非常好用的工具。

基本命令:

awk [-F re] [parameter...] ['prog'] [-f progfile]

-F re: 修改字段分隔符

‘prog’: awk语言片段,'pattern {action}', 二者必须有一个有值,缺省action是打印。

-f progfile: awk语言文件。

简单示例:

1. 打印test.txt含有keywords的行。

awk '/keywords/' test.txt

2. regex指定范围
awk '/keyword1/,/keyword2/ ' test.txt

内建变量:

  • 域变量:$1, $2 ... $N, 一条记录分隔出来的各个域的值。$0指整条记录。
  • NR: 已输入记录的条数。
  • NF: 当前记录中域的个数。记录中最后一个域可以以$NF的方式引用。
  • FILENAME: 当前输入文件的文件名。
  • FS: “域分隔符”,用于将输入记录分割成域。其默认值为“空白字符”,即空格和制表符。FS可以替换为其它字符,从而改变域分隔符。
  • RS: 当前的“记录分隔符”。默认状态下,输入的每行都被作为一个记录,因此默认记录分隔符是换行符
  • OFS: “输出域分隔符”,即分隔print命令的参数的符号。其默认值为空格。
  • ORS: “输出记录分隔符”,即每个print命令之间的符号。其默认值为换行符。
  • OFMT: “输出数字格式”(Format for numeric output),其默认值为"%.6g"。

语法:

BEGIN {文件开始后处理}

#注释

#无需;结尾

END {文件结束时处理}

变量和函数:

variable_name: 关键字除外的数字,字母,下划线

variable_name = value

function func_name (parameter) {

    return value;

}

复杂示例:

1. 输出单词计数

{
    w += NF
    c += length + 1
}
END { print NR, w, c }

2. 计算单词出现频率

# Print list of word frequencies
     
     {
         for (i = 1; i <= NF; i++)
             freq[$i]++
     }
     
     END {
         for (word in freq)
             printf "%s\t%d\n", word, freq[word]
     }

一个不错的中文学习笔记: http://man.lupaworld.com/content/manage/ringkee/awk.htm

英文文档: http://www.gnu.org/software/gawk/manual/gawk.htm

标题基于Python的汽车之家网站舆情分析系统研究AI更换标题第1章引言阐述汽车之家网站舆情分析的研究背景、意义、国内外研究现状、论文方法及创新点。1.1研究背景与意义说明汽车之家网站舆情分析对汽车行业及消费者的重要性。1.2国内外研究现状概述国内外在汽车舆情分析领域的研究进展与成果。1.3论文方法及创新点介绍本文采用的研究方法及相较于前人的创新之处。第2章相关理论总结和评述舆情分析、Python编程及网络爬虫相关理论。2.1舆情分析理论阐述舆情分析的基本概念、流程及关键技术。2.2Python编程基础介绍Python语言特点及其在数据分析中的应用。2.3网络爬虫技术说明网络爬虫的原理及在舆情数据收集中的应用。第3章系统设计详细描述基于Python的汽车之家网站舆情分析系统的设计方案。3.1系统架构设计给出系统的整体架构,包括数据收集、处理、分析及展示模块。3.2数据收集模块设计介绍如何利用网络爬虫技术收集汽车之家网站的舆情数据。3.3数据处理与分析模块设计阐述数据处理流程及舆情分析算法的选择与实现。第4章系统实现与测试介绍系统的实现过程及测试方法,确保系统稳定可靠。4.1系统实现环境列出系统实现所需的软件、硬件环境及开发工具。4.2系统实现过程详细描述系统各模块的实现步骤及代码实现细节。4.3系统测试方法介绍系统测试的方法、测试用例及测试结果分析。第5章研究结果与分析呈现系统运行结果,分析舆情数据,提出见解。5.1舆情数据可视化展示通过图表等形式展示舆情数据的分布、趋势等特征。5.2舆情分析结果解读对舆情分析结果进行解读,提出对汽车行业的见解。5.3对比方法分析将本系统与其他舆情分析系统进行对比,分析优劣。第6章结论与展望总结研究成果,提出未来研究方向。6.1研究结论概括本文的主要研究成果及对汽车之家网站舆情分析的贡献。6.2展望指出系统存在的不足及未来改进方向,展望舆情
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值