爬取豆瓣图书top250的第一页
我最终爬取的是图书的书名,链接
先要做个说明,如果你是编程高手的话,这边文章你就不用看了,如果你是个python爬虫小白的话,可以看看这篇原创
我将用到的软件是pycharm,将要用到的模块是requets, BeautifulSoup.
爬虫很关键的是对网页原代码的分析,在这里我选择的网页是https://book.douban.com/top250,用的浏览器是谷歌浏览器.
1. 我们进入网页后,按鼠标右键—检查—进入网页代码


2. 在pycharm上先写第一段代码
import requests
from bs4 import BeautifulSoup
url = "https://book.douban.com/top250" # 要爬取的网页
hea

本文介绍了使用Python爬虫抓取豆瓣图书Top250第一页的书名和链接。通过PyCharm,结合requests和BeautifulSoup库,解析网页源代码,定位到<div class='pl2'>,并使用find_all和find方法提取所需信息。最后,成功打印出书名和链接。
最低0.47元/天 解锁文章
1605

被折叠的 条评论
为什么被折叠?



