暑假学习 Python爬虫基础（4）

最新推荐文章于 2024-05-02 01:16:59 发布

原创

最新推荐文章于 2024-05-02 01:16:59 发布 · 390 阅读

1 ·

CC 4.0 BY-SA版权

本文记录了作者在暑假期间学习Python爬虫的基础知识，并尝试爬取百度文库文章及手机软件的过程。在爬取百度文库时遇到点击继续阅读的分块覆盖问题，尚未解决；随后转向手机App爬取，按照博客教程抓取了英雄图片并补充了未完成的代码，但功能实现仍有待完善。

学习的一些基础也完成的差不多了，下面就尽量自己来完成一下对百度文库文章的爬取，尽量自己自主完成

还有就是手机软件爬虫的实现

百度文库文章的爬取

手机端的反爬手段少一点，可以修改头部，让其实现手机端网页的访问

from selenium import webdriver

options = webdriver.ChromeOptions()
options.add_argument('user-agent="Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19"')
driver = webdriver.Chrome(chrome_options=options)
driver.get('https://wenku.baidu.com/view/aa31a84bcf84b9d528ea7a2c.html')

爬取百度文库的过程中，到了点击继续阅读的部分时，报错了，因为上面有一个分块，覆盖在其上面，导致其无法点击，在网上找了许多的东西都没有尝试成功，正是这样的过程才发现了很多自己的不足。所以说还是要多实践呀！问题一直没有得到解决，所以我一直就卡在了下面这一段，也对这个项目失去了一些兴趣，所以暂时先放一放。

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.common.exceptions import TimeoutException

def search():
        options = webdriver.ChromeOptions()
        options.add_argument('user-agent="Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19"')
        driver = webdriver.Chrome(chrome_options=options)
        Wait = WebDriverWait(driver,10)
        driver.get('https://wenku.baidu.com/view/aa31a84bcf84b9d528ea7a2c.html')
        Con  = Wait.until(EC.element_to_be_clickable((By.XPATH,'/html/body/div[2]/div[2]/div[6]/div