爬虫心得和笔记(一) 了解爬虫

最新推荐文章于 2025-07-24 23:32:28 发布

king_crison

最新推荐文章于 2025-07-24 23:32:28 发布

阅读量441

点赞数 10

CC 4.0 BY-SA版权

文章标签：笔记爬虫网络爬虫大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/king_crison/article/details/142711318

笔者这几天收到了很多关于爬虫的工作，整理了一下，大概都是因为公司产品进入到了繁忙期/公司进入到了疲软期，需要寻找大量的客户信息作为营销，维持或者强推自己的产品；研究学员/公司管理层需要大量的数据作为分析使用；计算机类的学生对于python，数据分析，kettle等延展性课程需要使用到大量的数据作为练手的实验等等。因此这几天笔者对爬虫接触的比较多，为了不忘记这些知识点，打算把自己会的东西写下来，保留记忆。说不定那天就用上了。【doge】

对于一个白话文选手来说，爬虫(专有名称)的基本的原理是使用程序自动化地从网页获取数据，和人力直接在网站上复制数据，然后粘贴到文件上的行为是一样的。即程序访问网页之后，一条一条的把数据复制粘贴到文件中（当然这要注意相关的法律法规）。

在我们只需要获取少量数据的时候，比如5部同类型电影的票房，时长等这一类数据，手动复制粘贴比为了这点数据写一个程序工作效率来的快的多。但是当我们需要获取大量数据的时候，编写一个爬虫程序的优点就展现出来了：

爬虫程序可以自动化的获取数据；
可以快速获取一整个网页的信息(电脑对于这类机械性操作是比人操作要快很多的)，然后快速跳转到下一个界面重复进行数据获取的操作，从而大大减少人力资源的消耗；
减少人工在大量复制粘贴时可能出现的数据粘贴错误
可以提取人工无法复制，例如图片，一些不允许复制网站的数据等信息
可以处理一些动态数据

提炼以上的优点：在爬取大量数据的时候，爬虫程序会更快，更稳，以及获取到一些人工获取不到的数据。当然不是说爬虫程序就没有缺点了，事物大多都有两面性，爬虫程序也不例外，以下是笔者在工作中遇到爬虫的缺点:

自动化程序受限于网络稳定程度(跑跑断断还是很折磨人的)
有些网页非常复杂，需要花费大量时间去编写以及大量编写经验作为支撑
可能受限于某些网站的反爬虫功能(对于初学者，这几乎跨不过去)
有时需要不断尝试，非常消耗人的耐心

提炼以上的缺点：爬虫程序依赖稳定环境，需要不断积累不断尝试才能写出高效的爬虫程序。

当然，不是说我们要写爬虫程序就需要大量的经验支撑，想要爬取一些简单的网页，跟着爬虫的基础知识学习就可以做到。

所以当我们在研究分析，渠道获客，学习练手等方面对大量数据有需求的时候，召唤一个爬虫工程师或者一把抓住爬虫知识，顷刻炼化都是不错选择。

博客等级

码龄5年

13
原创

135
点赞

83
收藏

84
粉丝

关注

私信

热门文章

上一篇：: 清除jupyter的变量和工作台输出

下一篇：: 爬虫心得和笔记(二) 工具和语言介绍

最新评论

关于如何安装Selenium以及对应版本驱动
优快云-Ada助手: 恭喜您写了第5篇博客！标题“关于如何安装Selenium以及对应版本驱动”非常吸引人。您的博客对于那些想要学习安装Selenium框架并使用相应版本驱动的人来说肯定非常有用。我希望在您的博客中能够详细介绍一下不同操作系统下的安装步骤，这样读者在不同环境下都能够轻松上手。感谢您的辛勤努力，期待您的下一篇博客！
关于python向mysql插入数据和缺失的字段的一种方法
优快云-Ada助手: 恭喜你写了第三篇博客，标题很吸引人！对于python向mysql插入数据和处理缺失字段的方法，你的分享让我受益匪浅。希望你能继续坚持创作，不断分享更多有价值的内容。下一步，也许可以考虑分享一些实际案例或者更深入的技术细节，让读者更好地理解和应用你的方法。期待你的下一篇作品！优快云正在通过评论红包奖励优秀博客，请看红包流：https://bbs.youkuaiyun.com/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
Anaconda的下载
优快云-Ada助手: 恭喜您撰写了第一篇博客！标题“Anaconda的下载”引人入胜，对于初次写博客的您来说，展示了很好的主题选择能力。对于Anaconda这一重要工具的下载，您给出了清晰的指导，这对于新手来说尤为有帮助。不过，接下来，您可以考虑在博客中加入更多与Anaconda相关的实践经验或案例分享，以便读者更深入地了解Anaconda的具体应用和优势。期待您未来更多精彩的博客创作！推荐【每天值得看】：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
安装Anaconda
优快云-Ada助手: 非常棒的博文！看到你分享关于安装Anaconda的经验和步骤，真的很有帮助。继续创作吧，我期待你的下一篇博文！另外，关于Anaconda的一些扩展知识和技能，你可以了解一下Anaconda的环境管理功能。通过创建和管理不同的虚拟环境，你可以在同一台机器上同时运行不同版本的Python和各种包，非常方便。此外，还可以学习如何使用Anaconda Navigator来管理和安装包、编辑器等工具，提高工作效率。再次感谢你的分享，希望你能继续为我们带来更多有价值的内容！如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。