爬虫面试题

最新推荐文章于 2025-05-12 22:44:30 发布

翘首以待10000

最新推荐文章于 2025-05-12 22:44:30 发布

阅读量1.7w

点赞数 28

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_42336560/article/details/81485046

本文涵盖了爬虫面试中常见的问题，包括项目经验、Scrapy框架、代理使用、验证码处理、模拟登录、分布式爬虫、数据存储、Python基础知识、HTTP协议、数据提取和算法等内容。着重讨论了Scrapy的去重原理、代理使用场景、动态页面的处理方法以及数据存储的选择。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一.项目问题：

一般面试官的第一个问题八成都是问一下以前做过的项目，所以最好准备两个自己最近写的有些技术

含量的项目，当然一定要自己亲手写过的，在别的地方看的源码，就算看的再清楚，总归没有自己敲的

了解的多。以下是抽出的几点

1.你写爬虫的时候都遇到过什么反爬虫措施，你是怎么解决的?

通过headers反爬虫：解决策略，伪造headers
基于用户行为反爬虫：动态变化去爬取数据，模拟普通用户的行为
通过动态更改代理ip来反爬虫
基于动态页面的反爬虫：跟踪服务器发送的ajax请求，模拟ajax请求,selnium 和phtamjs

2.用的什么框架，为什么选择这个框架(我用的是scrapy框架，所以下面的问题也是针对scrapy)

scrapy

基于twisted异步io框架,是纯python实现的爬虫框架,性能是最大的优势
可以加入request和beautifulsoup
方便扩展,提供了很多内置功能
内置的cssselector和xpath非常方便
默认深度优先

pyspider: 爬虫框架,基于PyQuery实现的

优势: 1. 可以实现高并发的爬取数据, 注意使用代理;

2. 提供了一个爬虫任务管理界面, 可以实现爬虫的停止,启动,调试,支持定时爬取任务;

&nb

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。