Python爬虫新手教程：知乎文章图片爬取

最新推荐文章于 2021-10-30 21:27:53 发布

原创

最新推荐文章于 2021-10-30 21:27:53 发布 · 405 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python

本文介绍如何使用Python爬虫获取知乎文章的图片。首先，通过用户输入的问题ID获取相关页面信息，接着利用正则表达式从JSON数据中提取图片URL，并下载到本地。在代码实现中，注意了一个小BUG的修正以及需要预先创建图片存储目录。

1. 知乎文章图片爬取器之二博客背景

昨天写了知乎文章图片爬取器的一部分代码，针对知乎问题的答案json进行了数据抓取，博客中出现了部分写死的内容，今天把那部分信息调整完毕，并且将图片下载完善到代码中去。

首先，需要获取任意知乎的问题，只需要你输入问题的ID，就可以获取相关的页面信息，比如最重要的合计有多少人回答问题。

问题ID为如下标红数字

编写代码，下面的代码用来检测用户输入的是否是正确的ID，并且通过拼接URL去获取该问题下面合计有多少答案。

import requests
import re
import pymongo
import time
DATABASE_IP = '127.0.0.1'
DATABASE_PORT = 27017
DATABASE_NAME = 'sun'
client = pymongo.MongoClient(DATABASE_IP,DATABASE_PORT)
db = client.sun
db.authenticate("dba", "dba")
collection = db.zhihuone  # 准备插入数据

BASE_URL = "https://www.zhihu.com/question/{}"
def get_totle_answers(article_id):
    headers = {
        "user-agent": "需要自己补全 Mozilla/5.0 (Windows NT 10.0; WOW64)"
    }

    with requests.Session() as s:
        with s.get(BASE_URL.format(article_id),headers=headers,timeout=3) as rep:
            html = rep.text
            pattern =re.compile( '<meta itemProp="answerCount" content="(\d*?)"/>')
            s = pattern.sea