爬虫实战02--百度贴吧
01、运行环境
# 操作系统:win10 专业版
pycharm professional 2019.1
python 3.8
lxml == 4.5.1
requests == 2.23.0
xpath == 2.0.2
02、开始爬虫
02-1、爬取的内容
百度贴吧的标题以及里面的图片。
在爬取的过程中遇上了反爬(JS渲染后的页面无法抓取。),附上解决方案。
地址:
url = https://tieba.baidu.com/f?kw=lol&ie=utf-8&tab=main&pn=0&
02-2、开始抓取内容
02-2-1、首先
在浏览器里面打开检查模式,然后用Google的擦肩Xpath
去获取内容,再也中显示的是正常的,获取到了我们需要的内容。
02-2-2、接下来
我们就在pycharm里面编写代码,解析页面,基于lxml和xpath获取内容。下面是代码:
# 代码
# 爬取百度贴吧标题和图片
import requests
from lxml import etree
url = 'https://tieba.baidu.com/f?kw=lol&ie=utf-8&tab=main'
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36"
}
response = requests.get(url=url,headers=headers)
resstr = response.content.decode()
html = etree.HTML(resstr)
textlist = html.xpath("//ul/li//div[@class='threadlist_abs threadlist_abs_onlyline']/text()")