读书单

2013-01-18

静下心来看了《程序员发展路线图》

转载于:https://www.cnblogs.com/Null2051/archive/2013/01/18/2867027.html

### 使用Python编写爬虫抓取豆瓣月度读书数据 为了实现使用Python编写爬虫抓取豆瓣月度读书数据,可以采用`requests`库发送HTTP请求以及`BeautifulSoup`库解析HTML内容。以下是详细的实现方法[^1]。 首先,需要安装必要的库。可以通过以下命令安装所需的库: ```bash pip install requests beautifulsoup4 ``` 接下来,编写爬虫代码。以下是一个完整的示例代码: ```python import requests from bs4 import BeautifulSoup # 设置目标URL url = "https://book.douban.com/chart" # 示例为豆瓣读书页面 # 设置请求头,模拟浏览器访问 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36" } # 发送HTTP请求 response = requests.get(url, headers=headers) # 检查响应状态码 if response.status_code == 200: # 解析HTML内容 soup = BeautifulSoup(response.text, 'html.parser') # 查找书籍信息(根据实际HTML结构调整选择器) book_items = soup.select('.chart-list-item') # 假设书籍信息在chart-list-item类中 # 遍历书籍列表并提取信息 for idx, item in enumerate(book_items, start=1): title = item.select_one('.title-text').get_text(strip=True) # 获取书名 author = item.select_one('.author').get_text(strip=True) if item.select_one('.author') else "未知作者" # 获取作者 rating = item.select_one('.rating_nums').get_text(strip=True) if item.select_one('.rating_nums') else "暂无评分" # 获取评分 print(f"{idx}. 书名: {title}, 作者: {author}, 评分: {rating}") else: print(f"请求失败,状态码:{response.status_code}") ``` 上述代码实现了以下功能: 1. 使用`requests`库向目标URL发送GET请求,并通过设置`User-Agent`模拟浏览器访问。 2. 使用`BeautifulSoup`解析返回的HTML内容。 3. 根据豆瓣网页的实际结构,使用CSS选择器提取书籍的标题、作者和评分等信息[^2]。 需要注意的是,豆瓣网站可能对爬虫行为有限制,因此建议遵守其`robots.txt`文件中的规则,并适当控制请求频率以避免对服务器造成过大压力。 ### 注意事项 - 如果目标页面使用了JavaScript动态加载数据,可能需要借助`Selenium`或`Playwright`等工具模拟浏览器行为。 - 确保了解并遵守目标网站的使用条款和隐私政策[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值