爬取豆瓣图书top250的第一页
我最终爬取的是图书的书名,链接
先要做个说明,如果你是编程高手的话,这边文章你就不用看了,如果你是个python爬虫小白的话,可以看看这篇原创
我将用到的软件是pycharm,将要用到的模块是requets, BeautifulSoup.
爬虫很关键的是对网页原代码的分析,在这里我选择的网页是https://book.douban.com/top250,用的浏览器是谷歌浏览器.
1. 我们进入网页后,按鼠标右键—检查—进入网页代码
2. 在pycharm上先写第一段代码
import requests
from bs4 import BeautifulSoup
url = "https://book.douban.com/top250" # 要爬取的网页
hea