Python爬虫入门（二）：使用requests和xpath爬取论坛发帖列表

最新推荐文章于 2025-02-06 15:49:25 发布

搬砖的苦行僧

最新推荐文章于 2025-02-06 15:49:25 发布

阅读量787

点赞数

分类专栏：数据分析文章标签： python xpath 数据挖掘 selenium

本文链接：https://blog.youkuaiyun.com/WhyLW/article/details/107768333

版权

本文介绍了如何使用Python的requests库抓取网页内容，并结合xpath进行数据解析，以获取论坛的发帖列表。通过实例代码演示了整个过程，适合Python爬虫初学者。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

安装lxml

pip install lxml

代码

import requests
from bs4 import BeautifulSoup as bs
import time
import lxml
 
 
url = "https://bbs.hupu.com/bxj-postdate"
useragent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36"
header = {
   
    'user-agent': useragent,
    # 虎扑从第11页开始就必须登录才能查看
    # 从浏览器端登录后直接复制cookie，会过时，以后运行还得重新复制一遍。
    'cookie': 'your cookie'
}
 
for page in range(0,50):
    page_url = url + '-' + str(page+1)
    print(f'------------------ 第{page+1}页内容 {page_url}-------------------')
    response = requests.get(page_url, headers=header)
    last = time.time()
    selector = lxml.etree.HTML(response.text)
    ul_li = selector.xpath('//*[@id="ajaxtable"]/div[1]/ul/li')
    for li in ul_li:
        item = {
   }
        # 标题
        title_box = li.xpath('./div[@class="titlelink box"]')[0]
        item['link'] = hupu_domin + title_box.xpath('./a[@class="truetit"]/@href[1]')[0]
        # 测试发现有些标题会用<b>标签包裹(具体见下一个单元格)，需要特殊处理