初识爬虫

爬虫技术概览
本文介绍了互联网的概念及其目的,详细解释了数据的意义,并探讨了爬虫的分类与应用。包括普通爬虫与聚焦爬虫的区别,以及爬虫在搜索引擎、推荐引擎、数据分析和机器学习中的作用。同时,文章还提到了HTTP协议中的robots协议,以及请求和响应的基本要素。

  爬虫介绍

    -什么是互联网?

      由一堆网络设备把一台台计算机互联到一起,这就是互联网

    -互联网建立的目的

      为了数据的共享以及数据的传递

    -什么是数据

      例如:京东,淘宝等商品信息

    -爬虫的分类

      -普通爬虫

        把页面爬取下来,直接保存

      -聚焦爬虫

        把页面爬取下来,解析后再保存

    -爬虫的应用

      -搜索引擎

        谷歌,百度....

      -推荐引擎

        今日头条

      -数据分析样本

      -机器学习样本

    http 有一个robots协议

      -请求url 

        https://www.baidu.com/

      -请求方法

        GET

      -请求头

        cookies

        user-agent

        referer

      -响应头

        Set-Cookie

        Location

      -请求体

        form_data

 

转载于:https://www.cnblogs.com/xiaocaiyang/p/10491704.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值