一.项目问题:
一般面试官的第一个问题八成都是问一下以前做过的项目,所以最好准备两个自己最近写的有些技术
含量的项目,当然一定要自己亲手写过的,在别的地方看的源码,就算看的再清楚,总归没有自己敲的
了解的多。以下是抽出的几点
1.你写爬虫的时候都遇到过什么反爬虫措施,你是怎么解决的?
-
通过headers反爬虫:解决策略,伪造headers
-
基于用户行为反爬虫:动态变化去爬取数据,模拟普通用户的行为
-
通过动态更改代理ip来反爬虫
-
基于动态页面的反爬虫:跟踪服务器发送的ajax请求,模拟ajax请求,selnium 和phtamjs
2.用的什么框架,为什么选择这个框架(我用的是scrapy框架,所以下面的问题也是针对scrapy)
scrapy
- 基于twisted异步io框架,是纯python实现的爬虫框架,性能是最大的优势
- 可以加入request和beautifulsoup
- 方便扩展,提供了很多内置功能
- 内置的cssselector和xpath非常方便
- 默认深度优先
pyspider: 爬虫框架,基于PyQuery实现的
优势: 1. 可以实现高并发的爬取数据, 注意使用代理;
2. 提供了一个爬虫任务管理界面, 可以实现爬虫的停止,启动,调试,支持定时爬取任务;
&nb