开始之前先安装selenium库:pip install selenium
然后要下载浏览器驱动,本次用的是Chrome浏览器,就需要下载Chromed驱动,下载地址:http://npm.taobao.org/mirrors/chromedriver/
下载跟本机上使用的谷歌浏览器同一版本的驱动(版本只需要版本中第一个字段一样就可以了,然后在这个版本里面下载最新的)
然后就可以敲代码了
#目标:在58同城上选择 深圳-南山-白石洲 的租房,写到文件中
import time
import xlwt
from selenium import webdriver
import pandas
driver = webdriver.Chrome(r'D:\chromedriver.exe')
#设置selenium寻找元素最大等待时间
driver.implicitly_wait(10)
#打开网站
driver.get('https://sz.58.com/chuzu/')
#点击切换城市按钮
change_city = driver.find_element_by_id('commonTopbar_ipconfig')
change_city.click()
#选择省份-广东
get_provinces = driver.find_element_by_id('selector-province-arrow')
get_provinces

本文记录了使用Python的selenium库爬取网页数据,并将数据写入文件的过程。首先通过pip安装selenium,接着下载与Chrome浏览器版本匹配的ChromeDriver。在代码实现后,发现写入的数字出现乱码问题,可能是网页元素本身就存在乱码。总结中提到,文件名不应直接以.xlsx结尾,否则可能导致文件无法打开,同时指出代码还有优化空间。
最低0.47元/天 解锁文章
2196

被折叠的 条评论
为什么被折叠?



