Python网络爬虫与信息提取（第四周）

最新推荐文章于 2023-02-09 13:42:00 发布

原创

最新推荐文章于 2023-02-09 13:42:00 发布 · 3.3k 阅读

13 ·

CC 4.0 BY-SA版权

本文详细介绍了Python网络爬虫框架Scrapy的组件、数据流、常见问题及解决策略，包括Spiders、Downloader、Engine、Scheduler等模块的工作原理，以及中间件、请求与响应处理等内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python网络爬虫之框架 (第4周)

1.‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬下面哪个不是“网络爬虫与信息提取”相关的技术路线？‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬
A
scrapy-bs4
B
requests-re
C
bs4-re
D
requests-bs4-re
正确答案： C
技术路线至少包含一个爬虫库和一个解析库，bs4和re都是解析库。

2.‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬ Requests库的方法与HTTP协议请求方法对应，下面哪个不是Requests库的对应方法？‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬
A
.put()
B
.patch()
C
.get()
D
.push()
正确答案： D

3.‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬判断一个网络爬虫应用可行性的最主要因素是什么？‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬
A
Robots协议是否有允许
B
网页条件，即尽量没有JavaScript脚本产生的数据
C
技术路线选取
D
部署代价和经济成本
正确答案： A
Robots协议允许是爬虫能够实施的首要条件。

4.‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬下面哪个不是网络爬虫可能引发的问题？‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬
A
性能骚扰
B
网络攻防对抗
C
隐私泄露
D
法律风险
正确答案： B
爬虫不会造成网络攻防对抗，被爬取服务器可能会被爬虫攻击，但没有对抗。

5.‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬