新手爬虫教程：Python爬取知乎文章中的图片

最新推荐文章于 2025-11-12 07:30:55 发布

转载最新推荐文章于 2025-11-12 07:30:55 发布 · 410 阅读

1 ·

CC 4.0 BY-SA版权

原文链接：https://juejin.im/post/5c3ff17251882525616dcd71

文章标签：

#爬虫 #python

前言

知乎，与世界分享你刚编好的故事.......

今天咱们就爬取一下知乎文章上面的图片，突然发现知乎上面的小姐姐图片还是挺好看的

基本环境配置

版本：Python3

系统：Windows

关于pymongo的一些操作

导入pymongo，使用MongClient连接数据库，连接到myinfo数据库

insert，insert_one()只能插入一条数据，插入多条数据的格式是db.user.insert([{条数1},{条数2}])，一定要加[]，否则只会添加进去第一条（user是一个集合，除了用db["collection"]外也可以用db.collection来对集合进行操作

update,$set:更新操作，multi=True：是否对查询到的全部数据进行操作，upsert=True：如果找不到查询的结果是否插入一条数据

db.user.update_one({"age":"2"},{"$set":{"name":"qian","age":2}})
db.user.update({"name":"sun"},{"$set":{"name":"qian"}},upsert=True)
复制代码

update_one也是只能对一条数据进行操作，$set是update操作的$操作符，也可以用$inc或$push，前两个操作速度差不多，$push操作速度较慢。

打印出查询结果

from bson import json_util as jsonb
print(jsonb.dumps(list(db.user.find({"name":"wu"}))))
print(db.user.find({"name":"wu"}))
可以看到上面两种方式，不转换与转换后的结果对比如下：
复制代码

*jsonb.dumps()将查询出来的结果转换成了可以读的list的格式，否则打印出来的是<pymongo.cursor.Cursor object at 0x02096DF0>这种格式的
遍历col1=db.user.find()查询到的所有结果，以及它key=name的value
for i in col1:
 print(i)
 print(i["name"])
复制代码