Python爬虫入门(二):使用requests和xpath爬取论坛发帖列表

本文介绍了如何使用Python的requests库抓取网页内容,并结合xpath进行数据解析,以获取论坛的发帖列表。通过实例代码演示了整个过程,适合Python爬虫初学者。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

安装lxml

pip install lxml

代码

import requests
from bs4 import BeautifulSoup as bs
import time
import lxml
 
 
url = "https://bbs.hupu.com/bxj-postdate"
useragent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36"
header = {
   
    'user-agent': useragent,
    # 虎扑从第11页开始就必须登录才能查看
    # 从浏览器端登录后直接复制cookie,会过时,以后运行还得重新复制一遍。
    'cookie': 'your cookie'
}
 
for page in range(0,50):
    page_url = url + '-' + str(page+1)
    print(f'------------------ 第{page+1}页内容 {page_url}-------------------')
    response = requests.get(page_url, headers=header)
    last = time.time()
    selector = lxml.etree.HTML(response.text)
    ul_li = selector.xpath('//*[@id="ajaxtable"]/div[1]/ul/li')
    for li in ul_li:
        item = {
   }
        # 标题
        title_box = li.xpath('./div[@class="titlelink box"]')[0]
        item['link'] = hupu_domin + title_box.xpath('./a[@class="truetit"]/@href[1]')[0]
        # 测试发现有些标题会用<b>标签包裹(具体见下一个单元格),需要特殊处理
  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值