爬虫实战02--python爬虫百度贴吧标题与图片，遇上反爬(JS渲染后的页面无法抓取)，附解决方案,完整代码

最新推荐文章于 2025-03-06 09:00:00 发布

HarveyWen05

最新推荐文章于 2025-03-06 09:00:00 发布

阅读量1.8k

点赞数 6

分类专栏： python3 爬虫反爬文章标签： python 百度 xpath 爬虫 chrome

本文链接：https://blog.youkuaiyun.com/weixin_44824717/article/details/108130777

版权

爬虫实战02--百度贴吧

01、运行环境

# 操作系统：win10 专业版
pycharm professional 2019.1
python 3.8
lxml == 4.5.1
requests == 2.23.0
xpath == 2.0.2

02、开始爬虫

02-1、爬取的内容

百度贴吧的标题以及里面的图片。
在爬取的过程中遇上了反爬（JS渲染后的页面无法抓取。），附上解决方案。
地址：

url = https://tieba.baidu.com/f?kw=lol&ie=utf-8&tab=main&pn=0&

02-2、开始抓取内容

02-2-1、首先

在浏览器里面打开检查模式，然后用Google的擦肩Xpath去获取内容，再也中显示的是正常的，获取到了我们需要的内容。
在这里插入图片描述

02-2-2、接下来

我们就在pycharm里面编写代码，解析页面，基于lxml和xpath获取内容。下面是代码：

# 代码
# 爬取百度贴吧标题和图片
import requests
from lxml import etree

url = 'https://tieba.baidu.com/f?kw=lol&ie=utf-8&tab=main'

headers = {
   
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36"
}

response = requests.get(url=url,headers=headers)
resstr = response.content.decode()

html = etree.HTML(resstr)
textlist = html.xpath("//ul/li//div[@class='threadlist_abs threadlist_abs_onlyline']/text()")