Chapter 1. Introduction to Web Automation
LWP ( "Library for World Wide Web in Perl"简称)是一组 Perl模块和从Web获取数据的面向对象的类。
这章简要说明了几种LWP程序来执行常见的任务,比如 抓取网页,使用正则表达式提取信息,并提交表单。
1.1 Web 作为数据源
很多的web 站点被设计, 用户界面专家,建立HTML代码是易于使用和正确的显示在所有的浏览器。用户体验专家摇手指告诉网页
设计师来研究他们的用户,让他们知道人类的弱点和猿的后代们将查看网站的欲望。
然而,从根本上说, 一个web 站点是提供数据和服务。一个股票经纪人有股票价格。
这是假设的数据和服务将有人来访问 渲染的HTML, 但是,需要程序程序员都对在网络上的数据来源和服务进行了研究,
并认为我想用那些程序.
LWP 让你的网站自动化,有了它,你可以读取网页,提交表单,验证,并从HTML 提取信息。一旦你使用它来抓取新闻标题
或者检查链接,你永远不会用同样的访问访问Web.
1.1.1 屏幕抓取
一旦你解决了基本的如何请求web server 的特定的页面, 你仍旧需要找出你需要的信息,
掩埋在HTML 响应信息里。通常你不需要更多的正则表达式来实现这些。
更挑剔的LWP的鉴赏家,然而, 对待HTML 文档作为令牌流。例如, 你胡使用令牌视图和树 视图来考虑这样的任务是如果来
捕捉<img...> 标签的,缺少一些它们的属性, 如何来获得所有的头条新闻的英国广播公司新闻主要页面的绝对URL,和如何对提
取内容从一个网页链接并将其插入到不同的模板。
在80*24 终端的日子里,"屏幕抓取"指的
Chapter 1. Introduction to Web Automation
最新推荐文章于 2024-10-01 20:22:28 发布