from selenium import webdriver
from lxml import etree
import time
# 调用goole浏览器
driver = webdriver.Chrome(executable_path=chrome存放地址)
# 浏览器变大
driver.maximize_window()
driver.get(url='https://www.douyu.com/g_LOL')
# 死循环 获取下一页
while True:
time.sleep(3)
html = etree.HTML(driver.page_source)
# 获取数据
li_list = html.xpath('//*[@id="listAll"]/div[2]/ul/li')
for li in li_list:
# 获取房间名
roomname = li.xpath('.//h3[@class="DyListCover-intro"]/text()')[0]
# 获取直播名
name = li.xpath('.//div[@class="DyListCover-userName"]/text()')[0]
# 获取热度
hot = li.xpath('.//span[@class="DyListCover-hot"]/text()')[0]
print(roomname, name, hot)
# 获取下一页的aria-disabled属性值
net_page = html.xpath('//*[@id="listAll"]/div[2]/div/ul/li[last()]')[0]
aria_disabled = net_page.get('aria-disabled')
if aria_disabled == 'false':
driver.find_element_by_xpath('//*[@id="listAll"]/div[2]/div/ul/li[last()]').click()
else:
break
斗鱼直播爬取
使用Python爬取斗鱼直播平台数据
最新推荐文章于 2024-12-20 08:48:12 发布
该博客展示了如何利用Selenium和lxml库抓取斗鱼直播平台的房间名称、主播姓名和热度信息。通过不断点击下一页来遍历直播列表,直到无更多页面为止,实现了一个简单的网页动态爬虫。
1832

被折叠的 条评论
为什么被折叠?



