爬虫面试题

本文涵盖了爬虫面试中常见的问题,包括项目经验、Scrapy框架、代理使用、验证码处理、模拟登录、分布式爬虫、数据存储、Python基础知识、HTTP协议、数据提取和算法等内容。着重讨论了Scrapy的去重原理、代理使用场景、动态页面的处理方法以及数据存储的选择。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一.项目问题:

    一般面试官的第一个问题八成都是问一下以前做过的项目,所以最好准备两个自己最近写的有些技术

含量的项目,当然一定要自己亲手写过的,在别的地方看的源码,就算看的再清楚,总归没有自己敲的

了解的多。以下是抽出的几点

1.你写爬虫的时候都遇到过什么反爬虫措施,你是怎么解决的?

  • 通过headers反爬虫:解决策略,伪造headers

  • 基于用户行为反爬虫:动态变化去爬取数据,模拟普通用户的行为

  • 通过动态更改代理ip来反爬虫

  • 基于动态页面的反爬虫:跟踪服务器发送的ajax请求,模拟ajax请求,selnium 和phtamjs

2.用的什么框架,为什么选择这个框架(我用的是scrapy框架,所以下面的问题也是针对scrapy)

   scrapy

  • 基于twisted异步io框架,是纯python实现的爬虫框架,性能是最大的优势
  • 可以加入request和beautifulsoup
  • 方便扩展,提供了很多内置功能
  • 内置的cssselector和xpath非常方便
  • 默认深度优先

   pyspider: 爬虫框架,基于PyQuery实现的 

   优势:  1. 可以实现高并发的爬取数据, 注意使用代理; 

             2. 提供了一个爬虫任务管理界面, 可以实现爬虫的停止,启动,调试,支持定时爬取任务;

         &nb

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值