import requests
from lxml import etree
import xlwt
为了方便翻页将网址代码分成两部分
urlstart = ‘http://www.hubeibidding.com/list/33.html?page=’
二级页面网址代码分成两部分
urlfirst = ‘http://www.hubeibidding.com’
#创建一个workbook设置编码
workbook = xlwt.Workbook(encoding = ‘UTF-8’)
#创建一个worksheet
worksheet = workbook.add_sheet(‘hubeichengtao’)
#定义个空list,用来储存内容
row = []
爬取数据总页数170,本次只到10页
for n in range(2, 11):
# 组合页面URL,用来翻页
URL = urlstart + str(n)
# 获取页面
headers = {‘User-Agent’: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36’}
res = requests.get(URL,headers = headers)
#设置内容配置
res.encoding = 'UTF-8'
html = res.content.decode('UTF-8')
e_html = etree.HTML(html)
#定位获取超链接
urlend = e_html.xpath(' //div[@class="dynamic_content_center"]/a/@href')
#组合超链

本文介绍了使用Python进行网络爬虫的实战案例,通过requests和lxml库,从指定网站的一级和二级页面抓取内容,并存储到Excel表格中。示例代码展示了如何组合URL进行翻页,以及处理二级页面数据。注意代码中的User-Agent设置,以模拟浏览器行为。最后,内容被写入到名为'hubeict_test.xls'的工作簿中。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



