python爬虫日志（10）多进程爬取豆瓣top250

最新推荐文章于 2024-08-10 19:42:39 发布

vegeticken

最新推荐文章于 2024-08-10 19:42:39 发布

阅读量383

点赞数

本文链接：https://blog.youkuaiyun.com/weixin_41506373/article/details/81269616

版权

本文介绍了使用Python进行多进程爬取豆瓣电影Top250的实践，旨在提高爬虫效率。通过多进程技术，数据量越大，效率提升越明显。最终将数据保存到MySQL数据库中，尽管数据量不大，但作为多进程爬虫的练习十分有价值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前面都没写内容，直接放上原文链接还是有点偷懒，很多人可能不会再点进去看，所以还是辛苦一下，再写一遍好了。

正文：

又是一个实践，这次准备爬取豆瓣电影top250，并把数据保存到mysql中，虽说数据量不大，对速度没有太大的要求，不过为了练习多进程爬虫，还是用多进程的方法写了这个爬虫。

多进程有什么用呢？在数据量少的时候，用不用多进程问题不大，但当数据量大的时候，多进程在效率提升上的作用就非常突出了。进程每多一个，速度就提升一倍，比如我的电脑是4核的，默认开4个进程（当然可以自己设置，但不宜过多），那么效率就能提升四倍。下面来看代码吧。

from bs4 import BeautifulSoup
import requests, get_proxy, pymysql
from multiprocessing import Pool  #多进程需要用到的库，pool可以称为进程池


douban_urls = ['https://movie.douban.com/top250?start={}&filter='.format(i) for i in range(0, 250, 25)]
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"}
proxy_list = get_proxy.get_ip_list()   #爬取代理的函数可以看我的上一篇日志
db = pymysql