[翻译]<Web Scraping with Python>Chapter 1.你的第一个网络爬虫

本文介绍如何构建首个网络爬虫,包括发送HTTP请求获取HTML内容,使用Python的urllib库和BeautifulSoup进行网页解析,以及如何处理网络异常等问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Chapter 1. 你的第一个网络爬虫

本章主要是关于不用浏览器获取数据。从一个最基本的向服务器发送Get请求一个页面开始,读取页面的HTML输出,简单的数据抽取来分离出我们想找寻的数据。本章及下一章则是连续的讲解不使用浏览器格式化和解析数据。

我们来看一个例子:
Alice有个web服务器,Bob用台式机去链接Alice的服务器。整个交换过程大概是这样的:
1. Bob的机器发送一条1/0(常用高低电平来代表)组成的数据流。这条数据流是信息的比特格式,含有header和body. Header含有一个Bob所在网络的路由器的MAC直接地址,还含有Alice的最终IP地址。Body含有对Alice服务器的请求。
2. Bob本地的路由器将这条1/0组成的比特流视为从Bob的MAC地址来的,去往Alice IP地址的数据包。路由器将这个数据包封装一下,将路由器它自己的IP地址作为源地址发送给Internet。
3. Bob的数据通过数个中间服务器,这些中间服务器都将上一个来的数据包封装好,将中间服务器自己的IP地址作为源地址,Alice的IP地址作为目的地址发给下一个中间服务器。
4. 直到Alice的服务器收到这个数据包。
5. Alice的服务器读取数据包的Header中的端口地址(端口地址几乎总是80,就如同门牌号一般,而Alice的IP地址就如同街道地址),将其传给对应的程序(这里的对等进程就是Web程序)。
6. Web服务器程序从服务处理器接受了一条数据流,这些数据包括:
- 这是一个GET请求
- 以下文件被请求:index.html
7.Web服务器加载正确的HTML文件,将其打成新的数据包发送给Bob,同样是通过本地路由、网络中间服务器的方式传递给Bob的机器。

Web浏览器就是这样一个非常有用的程序,可以很方便的打包信息、发送数据包和解释所返回给你的包括图像、声音、视频和文字等数据。然而,web浏览器其实就仅仅是代码。既然是代码就可以被分割成基本的组件,被重写和重用,以及用来做任何我们需要完成的工作。

这里有一个scrapetest.py的例子,这个例子可以获取完整的HTML的代码。但是这个例子使用的是静态网页,和我们现在看到的动态网页有一些差别,比如动态网页含有:图像文件、JavaScript文件、CSS文件以及网页上的任何链接。如果含有<img src=”cuteKitten.jpg”>, 浏览器会自动去再发送关于图片的请求。需要注意,这个python代码还没有逻辑去处理回溯和获取多个文件,而只能获取我们请求的单一HTML文件:

from urllib.request import urlopen
html = urlopen("http://pythonscraping.com/pages/page1.html")
print(html.read())

python2.x中的urllib2在python3.x中被重命名为urllib(urllib是个标准库)并且分为几个子模块,但是函数名基本还是保持一致的。
- urllib.request for opening and reading URLs
- urllib.error containing the exceptions raised by urllib.request
- urllib.parse for parsing URLs
- urllib.robotparser for parsing robots.txt files

BeautifulSoup库是以Alice梦游仙境中的场景命名的,这个库可以格式化和重组修复html的混乱信息,并且以一种易于遍历的XML结构展示出来。
代码示例:

from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("http://pythonscraping.com/pages/page1.html")
# print(html.read()) # 注意这里容易出错,html read()一次后再次read()就为空
# print("--------")
bsObj = BeautifulSoup(html.read(),"lxml")
print(bsObj)
print(bsObj.h1)

BeautifulSoup将HTML格式转化成如下结构:

html-><html><head>...</head><body>...</body></html>
    head-><head><title>A Useful Page</title></head>
        title-><title>A Useful Page</title>
    <body>-><body><h1>...</h1><div>...</div></body>
        h1-><h1>An Interesting Title</h1>
        div-><div>Lorem ipsum dolor sit amet...</div>

如下的调用得到相同的结果:
print(bsObj.h1)
print(bsObj.html.body.h1)
print(bsObj.html.h1)
print(bsObj.body.h1)
结果:

<h1>An Interesting Title</h1>

在第三章,我们将会用正则表达式结合BeautifulSoup来从HTML中提取信息。

连接可靠性和异常处理

网络上的数据可能存在格式错误,网站/网页不可用,标记确实等各种混乱情况。所以即使你很想诅咒网站开发人员,但是首要的是自己将异常处理考虑进去。写爬虫的时候,很重要的是将所有的情形都考虑进去,这样代码可以很好的处理异常也很容易供开发者阅读。你可能以很喜欢大量重用代码,所以将它们写成通用的函数会使得爬虫更容易,而且也更可靠。本章最后,代码可能以如下方式呈现:

from urllib.request import urlopen
from urllib.error import *
from bs4 import BeautifulSoup
def getTitle(url):
    try:
        html = urlopen(url)
    except (HTTPError, URLError) as e:
        return None
    try:
        bsObj = BeautifulSoup(html.read(),"lxml")
        title=bsObj.body.h1
    except AttributeError as e:
        return None
    return title
title = getTitle("http://pythonscraping.com/pages/page1.html")
if title is None:
    print("Title could not be found.")
else:
    print(title)
内容概要:该论文探讨了一种基于粒子群优化(PSO)的STAR-RIS辅助NOMA无线通信网络优化方法。STAR-RIS作为一种新型可重构智能表面,能同时反射和传输信号,与传统仅能反射的RIS不同。结合NOMA技术,STAR-RIS可以提升覆盖范围、用户容量和频谱效率。针对STAR-RIS元素众多导致获取完整信道状态信息(CSI)开销大的问题,作者提出一种在不依赖完整CSI的情况下,联合优化功率分配、基站波束成形以及STAR-RIS的传输和反射波束成形向量的方法,以最大化总可实现速率并确保每个用户的最低速率要求。仿真结果显示,该方案优于STAR-RIS辅助的OMA系统。 适合人群:具备一定无线通信理论基础、对智能反射面技术和非正交多址接入技术感兴趣的科研人员和工程师。 使用场景及目标:①适用于希望深入了解STAR-RIS与NOMA结合的研究者;②为解决无线通信中频谱资源紧张、提高系统性能提供新的思路和技术手段;③帮助理解PSO算法在无线通信优化问题中的应用。 其他说明:文中提供了详细的Python代码实现,涵盖系统参数设置、信道建模、速率计算、目标函数定义、约束条件设定、主优化函数设计及结果可视化等环节,便于读者理解和复现实验结果。此外,文章还对比了PSO与其他优化算法(如DDPG)的区别,强调了PSO在不需要显式CSI估计方面的优势。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值