从零开始学爬虫，活着终会无敌

原创已于 2024-06-02 18:08:40 修改 · 1.5k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#爬虫 #python #开发语言

于 2023-02-05 20:24:43 首次发布

编程学习笔记专栏收录该内容

190 篇文章

订阅专栏

文章介绍了非编程的爬虫工具如八爪鱼和可视化爬虫软件，提到了编程爬虫中Python的相关库和IP代理的使用，包括免费和付费代理的讨论。还分享了Python爬虫示例，如爬取豆瓣书籍信息，并推荐了其他爬虫学习资料。

诸神缄默不语-个人优快云博文目录

（标题是参考番茄爆文起的，是玩梗，别太在乎）

文章目录

1. 非编程的爬虫实现工具
2. 编程爬虫

1. 非编程的爬虫实现工具

八爪鱼：这个我用过，对简单的网站来说很好用，比编程要简单多了
八爪鱼采集器 - 免费网络爬虫软件_网页大数据抓取工具
screen-scraper: Data extraction software and services
爬山虎
NaiboWang/EasySpider: A visual no-code/code-free web crawler/spider易采集：一个可视化爬虫软件，可以无代码图形化的设计和执行爬虫任务：这个是一位浙大同学开发的工具
Portia

2. 编程爬虫

2.1 IP代理

在网上可以找到一些免费代理池，我之前就是因为免费代理池实在是都用不了，所以找了一家付费的，一台（一次产生一个IP地址，有效性3-5分钟）一月150元。我也不知道这个价位怎么样，没试过别人家的。

没有试过：
扒代理池的网站（需要上外网）：Eeyhan/IPproxy: 代理ip池，爬取主流免费代理，自动做去重处理，自动测试代理可用性，并已附带了常用请求头

2.2 robots协议

2.3 Python爬虫辅助工具

re
json
BeautifulSoup：解析HTML代码（比正则表达式更好用嘛） Beautiful Soup 4.4.0 文档 — Beautiful Soup 4.2.0 中文文档
requests
urllib2
scrapy
Scrapy Tutorial Series: Web Scraping Using Python | AccordBox
Scrapy入门教程 — Scrapy 0.24.1 文档
fiddler：抓包分析
wireshark
PySpider
PhantomJS
Selenium
Crawley
codelucas/newspaper: newspaper3k is a news, full-text, and article metadata extraction in Python 3. Advanced docs:：关注新闻、文章的采集和处理，可以从网页中直接扒下文章
cola
Selenium：自动化测试，模拟浏览器操作
Splash：JavaScript渲染服务
WebSockets

2.4 Python爬虫示例

优快云不让发，所以我在别的平台发了。

豆瓣
1. 爬取通过关键词搜索的豆瓣书籍信息：从0开始的爬虫实践项目 (1)：豆瓣用关键词搜索书籍 - 掘金或如何写爬虫程序爬取豆瓣网或者新浪微博里的内容？ - 风霜刀剑严相逼的回答 - 知乎
晋江
起点
番茄
新浪新闻
雪球
东方财富网

2.5 其他爬虫学习资料

python高级—— 从趟过的坑中聊聊爬虫、反爬、反反爬，附送一套高级爬虫试题 - Eeyhan - 博客园：这篇写得不错，很细节
这可能是你见过的最全的网络爬虫干货总结！ - 腾讯云开发者社区-腾讯云：这篇是崔庆才大神写的
爬虫爬取动态网页的三种方式简介 | K0rz3n’s Blog：主要关注动态网页的爬取，在我的豆瓣那篇项目里面用的就是直接逆向回溯的方法
面向GPT-4爬虫！_chatgpt4写爬虫-优快云博客
Python爬虫_一晌小贪欢的博客-优快云博客

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

诸神缄默不语 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。