python+selenium笔记之爬取网页数据并写入文件

最新推荐文章于 2024-05-03 17:05:16 发布

原创

最新推荐文章于 2024-05-03 17:05:16 发布 · 1.9k 阅读

9 ·

CC 4.0 BY-SA版权

本文记录了使用Python的selenium库爬取网页数据，并将数据写入文件的过程。首先通过pip安装selenium，接着下载与Chrome浏览器版本匹配的ChromeDriver。在代码实现后，发现写入的数字出现乱码问题，可能是网页元素本身就存在乱码。总结中提到，文件名不应直接以.xlsx结尾，否则可能导致文件无法打开，同时指出代码还有优化空间。

开始之前先安装selenium库：pip install selenium
然后要下载浏览器驱动，本次用的是Chrome浏览器，就需要下载Chromed驱动，下载地址：http://npm.taobao.org/mirrors/chromedriver/
下载跟本机上使用的谷歌浏览器同一版本的驱动（版本只需要版本中第一个字段一样就可以了，然后在这个版本里面下载最新的）

然后就可以敲代码了

#目标：在58同城上选择 深圳-南山-白石洲 的租房，写到文件中
import time
import xlwt
from selenium import webdriver
import pandas

driver = webdriver.Chrome(r'D:\chromedriver.exe')
#设置selenium寻找元素最大等待时间
driver.implicitly_wait(10)

#打开网站
driver.get('https://sz.58.com/chuzu/')


#点击切换城市按钮
change_city = driver.find_element_by_id('commonTopbar_ipconfig')
change_city.click()

#选择省份-广东
get_provinces = driver.find_element_by_id('selector-province-arrow')
get_provinces