Python爬虫教程-总纲

最新推荐文章于 2025-03-22 12:22:33 发布

原创最新推荐文章于 2025-03-22 12:22:33 发布 · 539 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

python爬虫专栏收录该内容

5 篇文章

订阅专栏

本文首先明确了学习爬虫的四个核心问题：定义、目的、时机及实现方式，并介绍使用Python进行爬虫开发的两种方法：通用框架实现和Scrapy专用工具。此外还概述了爬虫开发涉及的主要模块。

在学习爬虫前先明确lh 个问题，即what/why/when/how

1.whta:即先明确什么是爬虫，爬虫是用自动获取网页中所需内容的一段代码或一个程序；比如百度或谷哥就是一个大的爬虫；

2.why：为什么要用爬虫-用爬虫最主要的在于效率，如果用人工在浩翰的网络中获取想要的内容，是一件几乎不可能的事；所以要借助计算机程序的力量来完成

3.when：什么时候用爬虫-可以说任何时候，只要你想从网络中，从文件中想获取指定的信息，爬虫就可以实现；

4.how:怎么用，这是我这个爬虫系列博客要解决的最主要的问题。如有兴趣，请慢慢看；

用python编写爬虫一般有两种方法：

一是用通用框架，一步一步实现，这种方法的好处是灵活，面向定向爬取，可扩展性通用性好，适合中小量级的数据爬取；

二是用专用爬中心工具即scrapy，这个模块属商业级专用爬取工具，基本可满足搜索引擎以外千万级别的爬取工作。（这部分以后再写，此次只写第一种方法）

对于一般的爬虫，涉及到较多的模块，其主要的有如下图所示。

这部分主要介绍了要完成从想获取数据到最后可视化展现出来涉及到的学习内容，

下节就逐个来讲解如何从一个想法变成一张可视化图表。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。