网络数据处理与操作实用指南
1. 以格式化纯文本形式下载网页
网页通常是包含一系列 HTML 标签以及 JavaScript、CSS 等元素的 HTML 页面。在寻找特定内容时,我们可能需要解析网页中的数据,Bash 脚本可以帮助我们完成这项任务。当下载网页时,我们得到的是一个 HTML 文件,要查看格式化数据,需在网页浏览器中查看。但在大多数情况下,解析格式化文本文件比解析 HTML 数据更容易。因此,如果能得到一个与浏览器中所见网页相似的格式化文本文件,会更有用,还能节省去除 HTML 标签的精力。
Lynx 是一个有趣的命令行网页浏览器,我们可以用它将网页以纯文本格式输出。操作步骤如下:
- 使用 lynx 命令的 -dump 标志将网页视图以 ASCII 字符表示形式下载到文本文件中:
$ lynx -dump URL > webpage_as_text.txt
此命令还会在文本输出的底部,以“References”为标题单独列出所有超链接( <a href="link"> ),这有助于我们避免使用正则表达式单独解析链接。
- 例如:
$ lynx -dump http://google.com > plain_text_page.txt
- 使用
cat命令查看纯文本版本: <
-1
超级会员免费看
订阅专栏 解锁全文
11万+

被折叠的 条评论
为什么被折叠?



