一个提高Python爬虫速度的技巧,帮你达到数据量要求提高爬取效率
今天在浏览某乎时,发现一个有趣的问题:
如何优化 Python 爬虫的速度?
他的问题描述是:
目前在写一个 Python 爬虫,单线程 urllib 感觉过于慢了,达不到数据量的要求(十万级页面)。求问有哪些可以提高爬取效率的方法?
这个问题还蛮多人关注的,但是回答的人却不多。
我今天就来尝试着回答一下这个问题。
程序提速这个问题其实解决方案就摆在那里,要么通过并发来提高单位时间内处理的工作量,要么从程序本身去找提效点,比如爬取的数据用gzip传输、提高处理数据的速度等。
我会...
原创
2021-12-09 10:30:20 ·
1867 阅读 ·
0 评论