from urllib.request import urlopen
from urllib.error import HTTPError,URLError
from bs4 import BeautifulSoup引入BeautifulSoup
下面是getTitle函数
def getTitle(url):
try:
html=urlopen(url)
except (HTTPError,URLError) as e:
return None
try:
bsObj=BeautifulSoup(html.read())
title=bsObj.body.h1
except AttributeError as e:
return none
return title
title=getTitle("http://www.pythonscraping.com/pages/page1.html")
if title==None:
print("Title could not be found!")
else:
print(title)
本文介绍了一个使用Python进行网页抓取与解析的实际案例。通过urllib和BeautifulSoup库,文章详细展示了如何从指定URL获取网页内容,并进一步解析出页面标题的过程。此教程适合初学者了解网页抓取的基本步骤。
2547

被折叠的 条评论
为什么被折叠?



