爬虫心得和笔记(一) 了解爬虫

笔者这几天收到了很多关于爬虫的工作,整理了一下,大概都是因为公司产品进入到了繁忙期/公司进入到了疲软期,需要寻找大量的客户信息作为营销,维持或者强推自己的产品;研究学员/公司管理层需要大量的数据作为分析使用;计算机类的学生对于python,数据分析,kettle等延展性课程需要使用到大量的数据作为练手的实验等等。因此这几天笔者对爬虫接触的比较多,为了不忘记这些知识点,打算把自己会的东西写下来,保留记忆。说不定那天就用上了。【doge】

对于一个白话文选手来说,爬虫(专有名称)的基本的原理是使用程序自动化地从网页获取数据,和人力直接在网站上复制数据,然后粘贴到文件上的行为是一样的。即程序访问网页之后,一条一条的把数据复制粘贴到文件中(当然这要注意相关的法律法规)。

在我们只需要获取少量数据的时候,比如5部同类型电影的票房,时长等这一类数据,手动复制粘贴比为了这点数据写一个程序工作效率来的快的多。但是当我们需要获取大量数据的时候,编写一个爬虫程序的优点就展现出来了:

  1. 爬虫程序可以自动化的获取数据;
  2. 可以快速获取一整个网页的信息(电脑对于这类机械性操作是比人操作要快很多的),然后快速跳转到下一个界面重复进行数据获取的操作,从而大大减少人力资源的消耗;
  3. 减少人工在大量复制粘贴时可能出现的数据粘贴错误
  4. 可以提取人工无法复制,例如图片,一些不允许复制网站的数据等信息
  5. 可以处理一些动态数据

提炼以上的优点:在爬取大量数据的时候,爬虫程序会更快,更稳,以及获取到一些人工获取不到的数据。当然不是说爬虫程序就没有缺点了,事物大多都有两面性,爬虫程序也不例外,以下是笔者在工作中遇到爬虫的缺点:

  1. 自动化程序受限于网络稳定程度(跑跑断断还是很折磨人的)
  2. 有些网页非常复杂,需要花费大量时间去编写以及大量编写经验作为支撑
  3. 可能受限于某些网站的反爬虫功能(对于初学者,这几乎跨不过去)
  4. 有时需要不断尝试,非常消耗人的耐心

提炼以上的缺点:爬虫程序依赖稳定环境,需要不断积累不断尝试才能写出高效的爬虫程序。

当然,不是说我们要写爬虫程序就需要大量的经验支撑,想要爬取一些简单的网页,跟着爬虫的基础知识学习就可以做到。

所以当我们在研究分析,渠道获客,学习练手等方面对大量数据有需求的时候,召唤一个爬虫工程师或者一把抓住爬虫知识,顷刻炼化都是不错选择。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值