爬虫基础入门（一）

枸杞红枣泡咖啡

已于 2024-03-14 08:39:04 修改

阅读量1.7k

点赞数 21

文章标签：爬虫 python

于 2024-03-13 23:18:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_73956443/article/details/136692718

版权

本文详细介绍了爬虫的概念、工作原理、分类，包括通用爬虫和聚焦爬虫的区别，以及爬虫如何通过get和post请求抓取网页数据。同时探讨了反爬虫的背景、原因和常见类别，提醒读者在编写爬虫时注意遵循规范，避免对网站造成干扰。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

学习爬虫第一天（爬虫原理步骤）

文章目录

前言
一、什么是爬虫
二、爬虫的分类
三、爬虫的本质
四、爬虫不能做的事情
五、爬虫的写法

前言

爬虫的兴起
1随着互联网的发展数据资源变得非常丰富且容易搜索人们发现从网页上找到他们想要的信息是一件非常简单的事情，他们通常分布在大量的网站上。但另一个问题出现了，当他们想要数据的时候，并非每个网站都提供下载按钮，如果进行手动复制显然是非常低效且乏味的。2网络爬虫就诞生了。网络爬虫实际上是由网页机器人/爬虫驱动的，其功能与搜索引擎相同。简单来说就是，抓取和复制。唯一的不同可能是规模。 3 网络数据抓取是从特定的网站提取特定的数据，而搜索引擎通常是在万维网上搜索出大部分的网站。特别是现在的数据分析人工智能大数据的兴起对于数据的需求越来越高爬虫蓬勃发展

一、什么是爬虫

爬虫，也被称为网页蜘蛛、网络机器人，或者在某些社区中更常被称为网页追逐者，是一种程序或脚本。它按照特定的规则，自动地抓取互联网上的网页信息，包括文本、图片等，并将这些信息存储到计算机上。

二、爬虫的分类

通用爬虫 将网页下载到本地
聚焦爬虫 从网页中提取我们想要的数据
通常爬虫指的是聚焦爬虫

三、爬虫的本质

模拟客户端发起请求----------接收响应
原则上 只要是浏览器(app)能看到的都可以爬取 万物皆可爬

四、爬虫不能做的事情

爬虫的频次要控制不要把人家服务器搞崩
隐私数据不要爬，比如：身份证手机号住址等等
不正当竞争/搬运盈利比如：爬取人家的数据去卖钱 (做大了人家会找你麻烦)
robots协议,一个不成文的约定，一没法律效应，二也没强制作用（一个规定）

五、爬虫的写法

1. 明确目标

1.url:网址

www.runoob.com/python/python-tutorial.html
域名：www.runoob.com
路由：python/python-tutorial.html

http(超文本传输协议）：是一种发布和接收HTML页面的方法，80端口
https（超文本传输安全协议）：利用SSL/TLS安全套接层建立全信道加密数据包，主要用于Web的安全传输协议，在传输层对网络连接进行加密，保障在Internet上数据传输的安全，443端口

2.浏览网页的基本过程

这是一个发起请求获取响应的过程
DNS服务器：DNS是一个分布式的数据库系

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。