爬虫基础入门(一)

本文详细介绍了爬虫的概念、工作原理、分类,包括通用爬虫和聚焦爬虫的区别,以及爬虫如何通过get和post请求抓取网页数据。同时探讨了反爬虫的背景、原因和常见类别,提醒读者在编写爬虫时注意遵循规范,避免对网站造成干扰。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

学习爬虫第一天(爬虫原理步骤)


前言

爬虫的兴起
1随着互联网的发展 数据资源变得非常丰富且容易搜索人们发现从网页上找到他们想要的信息是一 件非常简单的事情,他们通常分布在大量的网站 上。但另一个问题出现了,当他们想要数据的时 候,并非每个网站都提供下载按钮,如果进行手 动复制显然是非常低效且乏味的。2网络爬虫就诞生了 。网络爬虫实际上是由网页 机器人/爬虫驱动的,其功能与搜索引擎相同。简 单来说就是,抓取和复制。唯一的不同可能是规模。 3 网络数据抓取是从特定的网站提取特定的数 据,而搜索引擎通常是在万维网上搜索出大部分 的网站。特别是现在的 数据分析 人工智能 大数据的兴起 对于数据的需求越来越高 爬虫蓬勃发展


一、什么是爬虫

爬虫,也被称为网页蜘蛛、网络机器人,或者在某些社区中更常被称为网页追逐者,是一种程序或脚本。它按照特定的规则,自动地抓取互联网上的网页信息,包括文本、图片等,并将这些信息存储到计算机上。

二、爬虫的分类

通用爬虫 将网页下载到本地
聚焦爬虫 从网页中提取我们想要的数据
通常爬虫指的是聚焦爬虫

三、爬虫的本质

模拟客户端发起请求----------接收响应
原则上 只要是浏览器(app)能看到的 都可以爬取 万物皆可爬

四、爬虫不能做的事情

  1. 爬虫的频次要控制 不要把人家服务器搞崩
  2. 隐私数据不要爬,比如:身份证 手机号 住址 等等
  3. 不正当竞争/搬运盈利 比如:爬取人家的数据 去卖钱 (做大了人家会找你麻烦)
  4. robots协议,一个不成文的约定,一没法律效应,二也没强制作用(一个规定)

五、爬虫的写法

1. 明确目标

1.url:网址

www.runoob.com/python/python-tutorial.html
域名:www.runoob.com
路由:python/python-tutorial.html

  • http(超文本传输协议):是一种发布和接收HTML页面的方法,80端口
  • https(超文本传输安全协议):利用SSL/TLS安全套接层建立全信道加密数据包,主要用于Web的安全传输协议,在传输层对网络连接进行加密,保障在Internet上数据传输的安全,443端口

2.浏览网页的基本过程

这是一个发起请求获取响应的过程
DNS服务器:DNS是一个分布式的数据库系

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值