用Python3爬取知乎上好看的壁纸

一、开发环境

Windows10 + PyCharm Community 2018.1.4

二、开整

先交代下,本人平时比较喜欢看知乎,因为知乎上干货多,这不最近迷上了给手机换壁纸,恰巧知乎上这个问题下https://www.zhihu.com/question/64252714/answer/272394399有很多好看的壁纸,以前我都是一张一张地保存,超累的抓狂最近在学习Python3,在网上找了些例子学到了点皮毛,于是想做个小小的爬虫,把该答案下的壁纸爬下来。好,说干咱就干!

以下是代码放送~
from urllib import request  #从urllib库里导入request模块
from bs4 import BeautifulSoup   #从BeautifulSoup4(bs4)库里导入BeautifulSoup模块
import re   #导入正则表达式模块re模块
import time     #导入time模块

url = "https://www.zhihu.com/question/64252714"
html = request.urlopen(url).read().decode('utf-8')
soup = BeautifulSoup(html, 'html.parser')


links = soup.find_all('img', 'origin_
好的,我可以为您提供相关帮助。您可以使用 Python 中的 requests 和 BeautifulSoup 库来爬取乎某个问题下的所有回答。具体实现步骤如下: 1. 打开乎问题页面,获取问题的 URL。 2. 使用 requests 库发送 GET 请求,获取页面的 HTML 内容。 3. 使用 BeautifulSoup 库解析 HTML 内容,提取所有回答的内容。 4. 将回答内容保存到本地文件或数据库中。 以下是示例代码: ```python import requests from bs4 import BeautifulSoup # 乎问题页面 URL url = 'https://www.zhihu.com/question/xxx' # 发送 GET 请求,获取页面内容 response = requests.get(url) html = response.text # 使用 BeautifulSoup 解析 HTML 内容 soup = BeautifulSoup(html, 'html.parser') # 提取所有回答的内容 answers = [] answer_elements = soup.find_all('div', {'class': 'RichContent-inner'}) for element in answer_elements: answer = element.get_text().strip() answers.append(answer) # 将回答内容保存到文件 with open('answers.txt', 'w', encoding='utf-8') as f: for answer in answers: f.write(answer) f.write('\n') ``` 您只需要将示例代码中的 URL 替换为您要爬取乎问题页面的 URL,运行代码即可爬取该问题下的所有回答并保存到 answers.txt 文件中。需要注意的是,爬取乎数据需要遵守乎的 robots.txt 规定,不要过度频繁地访问网站,以免被封禁 IP。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值