
爬虫
文章平均质量分 91
Mi1k7ea
Mi1k7ea
展开
-
Python爬虫之分布式爬虫
本篇文章主要讲讲分布式爬虫的实现,一个是基于主从模式的方法,另一个则是基于Scrapy_redis分布式实现的方法。分布式进程:分布式进程是指将Process进程分布到多台机器上,充分利用多台机器的性能完成复杂的任务。在Python的通过multiprocessing库来完成,该模块不仅支持多进程且还支持将多进程分布到多台机器上。分布式进程就是将把Queue暴露到网络中让其他机器进程可以访原创 2017-12-20 10:43:46 · 3274 阅读 · 6 评论 -
Python爬虫之基础篇
关于Python的基本语法就不多说了,这里直接从各个小的程序开始,本文会不断地进行更新,一步步来走进Python~同时也希望各位可以给点好的建议哈~一、在Kali Linux中安装sublime text 3:先下载sublime text 3,然后到下载的目录中执行以下命令即可:dpkg -i ./sublime-text_build-3126_amd64.deb二、Socket模块:在导入so...原创 2017-04-04 17:40:36 · 7436 阅读 · 2 评论 -
Python爬虫之爬取动态页面数据
很多网站通常会用到Ajax和动态HTML技术,因而只是使用基于静态页面爬取的方法是行不通的。对于动态网站信息的爬取需要使用另外的一些方法。先看看如何分辨网站时静态的还是动态的,正常而言含有“查看更多”字样或者打开网站时下拉才会加载内容出来的进本都是动态的,简便的方法就是在浏览器中查看页面相应的内容、当在查看页面源代码时找不到该内容时就可以确定该页面使用了动态技术。对于动态页面信息的爬取,一原创 2017-11-01 12:39:00 · 34139 阅读 · 10 评论 -
Python爬虫之Scrapy爬虫框架
Scrapy是一个用Python写的爬虫框架,使用Twisted这个异步网络库来处理网络通信。这里通过创建优快云博客爬虫来学习Scrapy爬虫框架。安装Scrapy:在Linux上,直接pip install scrapy即可;在Windows上,需要依次安装pywin32、pyOpenSSL、lxml和scrapy。本次在Kali上安装,安装成功后能成功看到版本信息:原创 2017-12-19 12:41:32 · 3372 阅读 · 0 评论