初识爬虫

爬虫技术概览

最新推荐文章于 2025-09-11 23:47:28 发布

转载最新推荐文章于 2025-09-11 23:47:28 发布 · 53 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/xiaocaiyang/p/10491704.html

文章标签：

#爬虫 #人工智能

本文介绍了互联网的概念及其目的，详细解释了数据的意义，并探讨了爬虫的分类与应用。包括普通爬虫与聚焦爬虫的区别，以及爬虫在搜索引擎、推荐引擎、数据分析和机器学习中的作用。同时，文章还提到了HTTP协议中的robots协议，以及请求和响应的基本要素。

　　爬虫介绍

　　　　-什么是互联网?

　　　　　　由一堆网络设备把一台台计算机互联到一起,这就是互联网

　　　　-互联网建立的目的

　　　　　　为了数据的共享以及数据的传递

　　　　-什么是数据

　　　　　　例如:京东,淘宝等商品信息

　　　　-爬虫的分类

　　　　　　-普通爬虫

　　　　　　　　把页面爬取下来,直接保存

　　　　　　-聚焦爬虫

　　　　　　　　把页面爬取下来,解析后再保存

　　　　-爬虫的应用

　　　　　　-搜索引擎

　　　　　　　　谷歌,百度....

　　　　　　-推荐引擎

　　　　　　　　今日头条

　　　　　　-数据分析样本

　　　　　　-机器学习样本

　　　　http 有一个robots协议

　　　　　　-请求url

　　　　　　　　https://www.baidu.com/

　　　　　　-请求方法

　　　　　　　　GET

　　　　　　-请求头

　　　　　　　　user-agent

　　　　　　　　referer

　　　　　　-响应头

　　　　　　　　Set-Cookie

　　　　　　　　Location

　　　　　　-请求体

　　　　　　　　form_data

转载于:https://www.cnblogs.com/xiaocaiyang/p/10491704.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30888027

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

详解python爬虫系列之初识爬虫

09-19

初识Python爬虫，我们需要了解其基本原理和常用库。本文将通过实例介绍如何使用requests和BeautifulSoup两个核心库进行简单的网页抓取。首先，requests库是Python中用于发送HTTP请求的库，它能够模拟浏览器行为，...

python深度解析之小试牛刀初识爬虫

06-14

### Python深度解析之小试牛刀初识爬虫 #### 前言在现代信息社会，数据无疑是最有价值的资产之一。无论是对于企业内部积累的历史数据还是从互联网上获取的外部数据，掌握如何高效地抓取与处理这些数据至关重要。...

参与评论您还未登录，请先登录后发表或查看评论

Python爬虫教程-01 初识爬虫

weixin_53425420的博客

04-01

1819

网络爬虫是使用python等工具编写的，按照编写者设定的规则，模拟浏览器发送网络请求，接收请求响应，自动抓取互联网信息的程序。从定义可以看出，如果技术足够精湛，能够通过浏览器做到的，爬虫都可以完成。通用爬虫（如八爪鱼等）通过模拟浏览器访问网站，操作简单、兼容性强，适合大多数网站的数据采集，对初学者十分友好，但爬取速度较慢且对特殊数据的处理能力有限。自定义爬虫则是针对特定网站开发的专用程序，无需浏览器即可直接获取数据，具有速度快、数据覆盖全的优势，但开发门槛高、周期长。

初识爬虫4

2301_77869606的博客

09-11

1378

3.防止频繁向同一个域名发送请求被封ip,需使用代理ip。2.代理ip分类，根据匿名度分类：透明，匿名，高匿。1.理解代理ip，正向代理和反向代理。5.简易爬虫，实现金山翻译的爬取。

初识爬虫基础

2401_84968706的博客

11-22

1208

4.爬虫不止python能做.java,C++,ruby都能做.只不过python的语法简单,用python写的比较多。用户数据泄露 --> 有专门的不法分子,攻击培训机构的后台数据,获取到用户数据后,再进行针对性诈骗。3.robots协议: 君子协议,很多网站都会有一个文档,里面就写好了,哪些数据可以爬,哪些数据不能爬[不听]在互联网上进行数据抓取,收录,过滤. 对数据进行整理/排序. 最后把数据以网页的形式显示给用户。检测网页数据更新情况,只获取新出现的数据[股票,天气,评论,优惠券]

一初识爬虫

weixin_74727170的博客

08-27

2474

通过程序去访问网站，网站肯定希望用户来访问网站，而不是程序来访问，可以使用一些技术手段。设置障碍。越过障碍。两个电脑进行数据传输的时候要遵守的协议，我给你发的数据格式是怎样的，你收到的时候就有规定。解析数据有规则。因为计算机传输的时候就是一堆0和1，为了数据方便看就要约定好前面多少位数什么，后多少位是什么。超文本传输，传输的是超文本的东西，看到的HTML代码就是超文本，HTML叫超文本标记语言，这个语言写出的叫超文本。就是http协议传输的是网站的页面源代码。请求和响应得到的数据格式不一样。

初识爬虫1

2301_77869606的博客

09-10

1768

**Referer 页面跳转处，防盗链(图片/视频)***User-Agent 用户代理，提供系统信息和浏览器信息。network中抓包得到的源码才是判断依据，elements中的源码是渲染之后的源码。所有的状态码都不可信，一切以是否从抓包得到的响应中获取到数据为准。只发送指定请求，不会渲染。总结：模拟浏览器，发送请求，获取响应。发送所有请求，进行渲染。

初识爬虫8

2301_77869606的博客

09-24

1025

elements = driver.find_elements(by=By.<定位方式>, value='选择器')By.LINK_TEXT 和 By.PARTIAL_LINK_TEXT：通过链接的文本查找元素。By.CSS_SELECTOR：通过 CSS 选择器查找元素。By.NAME：通过元素的 name 属性查找元素。By.CLASS_NAME：通过元素的类名查找元素。By.TAG_NAME：通过标签名称查找元素。By.ID：通过元素的 ID 属性查找元素。4.driver的属性和方法。

初识爬虫3

2301_77869606的博客

09-11

908

1.cookies参数（浏览器的登录信息，需要设置，防止反爬机制检测）1.1 headers中设置cookies参数。2.cookiejar的处理（存储和管理 cookie）1.2 构建cookies字典。3. 模拟网络波动，timeout的使用。

初识爬虫2

2301_77869606的博客

09-10

668

python_百度搜索

大数据爬虫技术第1章初识爬虫.ppt

06-05

* * * * * * * * * * * * * * * 第1章初识爬虫了解了解熟悉掌握了解爬虫产生的背景 1 2 熟悉爬虫的分类掌握什么是爬虫 3 4 了解爬虫的用途 01 爬虫产生背景 02 什么是爬虫 03 爬虫的用途 04 爬虫的分类 ...

大数据爬虫技术第10章初识爬虫框架Scrapy.ppt

06-05

mySpider/spiders/ --存储爬虫代码的目录。第二步就是明确爬虫项目要抓取的内容。以培训公司的讲师为示例，该页面的内容如下图所示。抓取内容就是页面中所有讲师的姓名、级别和个人信息等数据。 Scrapy提供了基类...

告别IP被封！分布式爬虫的“隐身”与“分身”术

weixin_44617651的博客

09-09

545

咱们平时上网爬数据，最头疼的就是IP被封。单台机器猛刷，网站一眼就能识破。想把活儿干得又快又稳，就得把任务拆开，让多台机器或多个进程一起干，每个还用不同的IP出口——这就好比让一群人轮流换装去排队，既减轻压力又降低风险。

Python单元测试（unittest）实战指南