python爬取动态网页的内容

最新推荐文章于 2024-03-14 22:27:52 发布

原创最新推荐文章于 2024-03-14 22:27:52 发布 · 592 阅读

0 ·

CC 4.0 BY-SA版权

python 专栏收录该内容

51 篇文章

订阅专栏

本文介绍了一种利用Selenium结合BeautifulSoup实现动态网页内容抓取的方法，具体案例为爬取某网站的小说章节内容。

from    bs4     import BeautifulSoup
from selenium import webdriver
import time


def     main():
        driver = webdriver.Firefox()#用FireFox来渲染,chrome也可以，不过还要下载相应的exe文件
        driver.get('http://book.km.com/chapter/1462907_3.html')
        //小说的内容是用ajax取得的,普通的静态下载不下来
        time.sleep(4)
        srcCode = driver.page_source#获取渲染后的源码
        soup = BeautifulSoup(srcCode,"lxml")
        article = soup.find('div',{"class":"article-body"})#查找文章的位置
        if article!=None:

            print(article.text)
if      __name__=="__main__":
        main()