
python爬虫
文章平均质量分 84
Marvin Ming
目前在国企研究院做软件研发项目,擅长Python,爬虫、数据分析、软件开发和后端均有涉猎。
关于博客文章有任何问题请留言,我会不定期回复,欢迎交流,但百度10分钟内能够解决的问题不会回复。
其他问题可通过邮箱联系:constmmq@163.com。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python爬虫——多进程multiprocessing
其实多进程相对来说不是特别适合用来做爬虫,因为多进程比较适用于计算密集型,而爬虫是IO密集型,因此多进程爬虫对速度的提升不是特别明显,但是将爬虫改为多进程比较简单,只需简单的几行代码即可搞定,所以在修改我的爬虫提升效率时,我最先实现的是多进程爬虫。(然而速度真心还是慢,我多线程+协程的程序跑的晚,却早已经结束工作了,多进程的还在苦战…) 下面我通过实例来进行介绍。 我爬取的数据是外文数...原创 2017-07-30 10:57:59 · 6644 阅读 · 0 评论 -
Python爬虫——多线程+协程threading+gevent
上一篇博客中我介绍了如何将爬虫改造为多进程爬虫,但是这种方法对爬虫效率的提升不是非常明显,而且占用电脑cpu较高,不是非常适用于爬虫。这篇博客中,我将介绍在爬虫中广泛运用的多线程+协程的解决方案,亲测可提高效率至少十倍以上。 本文既然提到了线程和协程,我觉得有必要在此对进程、线程、协程做一个简单的对比,了解这三个程之间的区别。 以下摘自这篇文章:http://www.cnblogs.c...原创 2017-07-30 13:37:56 · 10589 阅读 · 3 评论 -
Python下利用Selenium获取动态页面数据
利用python爬取网站数据非常便捷,效率非常高,但是常用的一般都是使用BeautifSoup、requests搭配组合抓取静态页面,即网页上显示的数据都可以在html源码中找到,而不是网站通过js或者ajax异步加载的,这种类型的网站数据爬取起来较简单。但是有些网站上的数据是通过执行js代码来更新的,这时传统的方法就不是那么适用了。这种情况下有如下几种方法: - 清空网页上的network信息...原创 2017-05-20 11:24:32 · 40248 阅读 · 3 评论 -
python自动规则化抓取百度百科词条数据
百科词条数据整体较为规范,至少在网页上看起来是这样。但实际抓取时可以发现正文内容不论标题还是内容都在同一级下,无法直接获取到某一级标题下的所有相对应的内容,因此需要巧妙地设计代码来自动识别多级标题,自动将与标题相对应的内容存放在该标题下。 目前网络上抓取百度百科词条数据的代码大都是来自于同一个视频教程,虽然将功能分割,写了五个代码文件,但仍不能满足实际需求,教学作用大于实际作用。因此专...原创 2018-09-02 17:43:27 · 1873 阅读 · 0 评论 -
Python爬虫——根据关键词批量下载百度图片
代码如下,python2或python3应该皆可运行。#-*-coding:utf-8-*-# @meta: download photos from baidu by input keyword, to label photos with classes, like tree, building, mountain, grass, lakeimport requestsfrom bs4 ...原创 2018-12-28 15:51:38 · 833 阅读 · 0 评论