写在开始:最近在学selenium模块时,尝试使用selenium提取了斗鱼直播的房间信息,其中有两处bug,一,提取完第一页信息完之后,反转到第二页时信息提取错误,第二就是,拿不到直播的封面,后续我会继续修改,本源码我是在网上查找的,但是源码也有问题,我是在原有的基础上修改了一下
这是我自己写的:
from selenium import webdriver
import time
class Douyu(object):
def __init__(self):
self.url = 'https://www.douyu.com/directory/all'
self.driver = webdriver.Chrome()
def parse_data(self):
time.sleep(3)
room_list = self.driver.find_elements_by_xpath('//*[@id="listAll"]/section[2]/div[2]/ul/li/div/a') # 解析父节点
print(len(room_list))
data_list = []
for room in room_list:
temp = {}
temp['title'] = room.find_element_by_xpath('./div[2]/div[1]/h3').text
temp['type'] = room.find_element_by_xpath('./div[2]/div[1]/span').text
temp['owner'] = room.find_element_by_xpath('./div[2]/div[2]/h2').text
temp['heat'] = room.find_el

本文介绍了在学习selenium过程中,尝试提取斗鱼直播平台房间信息的实战经验。作者遇到了两个问题:一是从第一页切换到第二页时信息提取出错,二是无法获取直播封面。目前源码来源于网络并已进行部分修改,但仍有待完善。
最低0.47元/天 解锁文章
1867

被折叠的 条评论
为什么被折叠?



