高级文本处理:sed与gawk的深入应用
1. 高级sed编辑技巧
在处理网页HTML代码时,我们常常需要从其中提取所需的数据。使用 sed 编辑器可以很好地完成这个任务。
例如,对于包含HTML代码的文件 data9 ,我们可以使用如下命令去除HTML标签:
$ sed ’s/<[^>]*>//g’ data9
这个命令会将文件中所有的HTML标签替换为空,从而只显示文本内容:
This is the page title
This is the first line in the Web page. This should provide
some useful information for us to use in our shell script.
为了进一步清理输出结果,去除多余的空行,我们可以添加删除命令:
$ sed ’s/<[^>]*>//g;/^$/d’ data9
这样输出就会更加紧凑,只包含我们需要的数据。
sed 编辑器还提供了一些高级功能,用于跨多行处理文本模式:
- 多行命令 :
- next命令 <
超级会员免费看
订阅专栏 解锁全文
5

被折叠的 条评论
为什么被折叠?



