
Python爬虫
文章平均质量分 76
人生苦短,python陪伴
成为一名合格的Geeeeeeeek是需要不断挑战新事物
展开
-
Spider第四天:scrapy框架初体验
一、什么是Scrapy?Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。二、安装步骤Linux: pip3 install scrapyWindows: a....原创 2018-09-28 16:59:07 · 240 阅读 · 0 评论 -
Spider(一):爬虫基本概念及request 模块使用
一、爬虫基本概念:1.通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。2.实现爬虫的主流编程语言及缺点:(1)PHP:对多线程、多进程的支持不好(2)Java:代码臃肿,重构成本较大(3)C/C++:是一个非常不明智的选择,学习成本高,使用难度大,很装X(4)PYTHON:几乎没有缺点!!!代码优雅,学习成本低,具有非常多的模块,并具有框架的支持:Scrapy...原创 2018-09-25 23:34:38 · 1478 阅读 · 0 评论 -
如何进行手机APP的数据爬取?
转载地址:https://segmentfault.com/a/1190000013439547平时我们的爬虫多是针对网页的,但是随着手机端APP应用数量的增多,相应的爬取需求也就越来越多,因此手机端APP的数据爬取对于一名爬虫工程师来说是一项必备的技能。我们知道,网页爬取的时候我经常使用F12开发者工具或者fiddler之类的工具来帮助我们分析浏览器行为。那对于手机的APP该如何使用呢?同样...转载 2018-12-16 14:44:52 · 10241 阅读 · 0 评论 -
Spider(二):cookie和代理、正则表达式、xpath解析、xpath表达式
一、requests基于cookie操作cookie概念:当用户通过浏览器首次访问一个域名时,访问的web服务器会给客户端发送数据,以保持web服务器与客户端之间的状态保持,这些数据就是cookie.cookie&代理案例:#实现人人网的登录操作import requests#获取session对象,通过session发起的请求,该请求中会自动携带cookieses...原创 2018-09-27 18:22:01 · 307 阅读 · 0 评论