利用 Lynx 进行网页数据提取与处理
在命令行环境下,Lynx 浏览器可谓是一位无名英雄,它能在无图形界面的情况下发挥强大作用。下面我们将介绍如何使用 Lynx 完成一系列实用的任务,包括追踪 BBC 新闻、提取网页链接、在线查询单词定义、获取天气信息以及检查图书馆借阅情况。
1. 追踪 BBC 新闻
1.1 基本操作
Lynx 的 -dump 标志可输出网页文本而非 HTML 源代码。例如,要追踪 BBC 世界服务的科技新闻:
$ url=http://news.bbc.co.uk/2/low/technology/default.stm
$ lynx -dump $url | head
此操作输出网页的部分文本信息,虽内容本身可能不十分有趣,但便于后续使用 grep 等命令处理。若想查找关于游戏的新闻,可使用以下命令:
$ lynx -dump $url | grep -C1 -i games
若要获取特定链接的 URL,可通过再次请求页面并使用 grep 查找:
$ lynx -dump $url | grep '37\.'
1.2 提取特定信息
使用 -source 标志可获取网页的
超级会员免费看
订阅专栏 解锁全文
878

被折叠的 条评论
为什么被折叠?



