爬虫（1）——爬虫前奏

最新推荐文章于 2024-01-02 16:08:19 发布

原创最新推荐文章于 2024-01-02 16:08:19 发布 · 287 阅读

0 ·

CC 4.0 BY-SA版权

爬虫同时被 2 个专栏收录

18 篇文章

订阅专栏

python

17 篇文章

订阅专栏

仅供自己学习

一.什么是爬虫

二HTTP协议的介绍

三.抓包工具使用的网络请求

一.什么是爬虫

通俗理解：

一个模拟人类请求网站行为的程序。可以请求网页，并把数据抓取下来，然后用一定规则进行分析。

通用爬虫：类似于百度搜索，将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。

聚焦爬虫（需求）：会对内容进行筛选，是面向特定去求的一种网络爬虫程序。

准备工具：

python3.6

pycharm

二HTTP协议的介绍

什么是http和https协议：
http协议：中文意思是超文本传输协议。服务端口是80端口

https协议：是http协议的加密版本，在http下加入SSL层。服务端口是443端口。

在浏览器中发送http请求的过程：

url详解：

统一资源定位符

一个域名映射一个IP地址

现在的url已经可以自动把端口加上了

三.抓包工具使用的网络请求

常用的网页请求方法：

请求头常见参数：

2.referer:记录的是从哪个页面过来的。

3.cookie：判断是不是一个人，（我只记得清垃圾的时候清除过。）

常见的状态码：

Chorme抓包工具：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

yebulk

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python3 笔记 13 实战：原生爬虫

Tai_Park

07-24

553

13-1 分析抓取目的确定抓取页面爬取熊猫TV某个分类下面主播的人气排行分析网站结构 13-2 整理爬虫常规思路 F12查看HTML信息，Ctrl+Shift+C鼠标选取后找到对应的HTML。文本分析并提取信息——正则表达式。前奏： 1、明确目的 2、找到数据对应网页 3、分析网页的结构，找到数据所在标签的位置执行： 4、模拟HTTP请求，向...

爬虫6_周杰伦新歌《Mojito》B站弹幕分析

Lin_Xiao_Dai的博客

06-12

1858

6.12周杰伦发布新歌《Mojito》，赶紧蹭个热点来看一下大家弹幕都会说点什么。爬取链接【官方MV】Mojito - 周杰伦本项目源码，提取码duq8 找弹幕API 自己抓包研究是不可能的，前人肯定都帮我们踩过坑了，所以我这种技术渣渣肯定要在搜索引擎上搜寻资料的，B站弹幕接口，这篇文章很详细地介绍了B站弹幕API的各个参数。 B站弹幕API格式：https://api.bilibili.com/x/v1/dm/list.so?oid= + cid 找cid 打开爬取链接 F12打开开发者模式选择

参与评论您还未登录，请先登录后发表或查看评论

普希金：假如生活欺骗了你

My Blog's

09-19

7613

Если жизнь тебя обманет, Не печалься, не сердись! В день уныния смирись: День веселья, верь, настанет. Сердце в будущем живет; Настоящее уныло: Все мгновенно, все пройдет; Что пройдет, то будет мило.

Python分布爬虫——爬虫前奏和网络请求

m0re's blog

07-18

740

本文目录前言爬虫前奏前言继续python的学习，这次学习爬虫，听说比较好玩，我也学学。爬虫前奏爬虫的实际例子：搜索引擎(百度、谷歌、360搜索等) 数据分析与研究抢票软件等什么是网络爬虫通俗理解：爬虫是一个模拟人类请求网站行为的程序，可以自动请求网页，并将数据提取下来，然后使用一定的规则提取有价值的数据。专业介绍：????百度百科????维基百科通用爬虫和聚焦爬虫通用爬虫：通用爬虫是搜索引擎提取系统（百度等）的重要组成部分。主要是将互联网上的网页下载到本地，形成一

python3爬虫实践（二）——爬虫前奏

WXY19990803的博客

03-30

268

一、爬虫前奏 1.1：什么是网络爬虫通俗理解：爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并将数据抓取下来，然后使用一定的规则提取有价值的数据。专业介绍：百度百科 1.2：通用爬虫和聚焦爬虫通用爬虫：通用爬虫是搜索引擎抓取系统（百度、谷歌等）的重要组成部分。主要是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。聚焦爬虫：是面向特定需求的一种网络爬虫程序，他与通用...

【Python爬虫】实现资源自由新手必读

weixin_52580607的博客

04-14

2084

python爬虫：学习如何使用 Python 抓取互联网数据

Python3原生爬虫实战

QQ2352108083的博客

02-13

228

一.爬虫实例 1.原理：文本分析并提取信息——正则表达式。 2.实例目的：爬取熊猫TV某个分类下面主播的人气排行分析网站结构操作：F12查看HTML信息，Ctrl+Shift+C鼠标选取后找到对应的HTML。 PS:另外很多人在学习Python的过程中，往往因为遇问题解决不了或者没好的教程从而导致自己放弃，为此我建了个Python全栈开...

csdn-爬虫 ip代理

bihackers的专栏

01-06

585

1 .微信小程序开发官方文档 2 .优快云博文精选微信小程序全方位解析 3 .一名Android开发者的微信小程序填坑之路(1) 4 .微信直播在小程序上使用 5 .Android 实现微信，QQ的程序前后台切换：back键切换后台；点击通知栏恢复前台。 6 .「微信小程序」有哪些冲击与机会？ 7 .微信小程序简单教程 8 .微信小程序入门教程+案例demo 9 .目前为止最全

十三、原生爬虫实战

weixin_30312659的博客

08-03

115

一、简单实例 1、需求：爬取熊猫直播某类主播人气排行 2、了解网站结构分类——英雄联盟——"观看人数" 3、找到有用的信息二、整理爬虫常规思路 1、使用工具chrome——F12——element——箭头——定位目标元素目标元素：主播名字，人气（观看人数） 2、方法：使用正则表达式提取有用的信息主播名字，人气（观看人数）总结爬虫前奏 1）明...

Python之原生爬虫（十）

时间过的真的很快

05-17

564

一.爬虫实例 1.原理：文本分析并提取信息——正则表达式。 2.实例目的：爬取熊猫TV某个分类下面主播的人气排行分析网站结构操作：F12查看HTML信息，Ctrl+Shift+C鼠标选取后找到对应的HTML。 3.步骤：前奏： 1、明确目的（分析抓取目的确定抓取页面） 2、找到数据对应网页 3、分析网页的结构，找到数据所在标签的位置...

基于Selenium的Java爬虫实战与Chrome 117环境配置

同时，它也体现了自动化测试与网络爬虫技术深度融合的趋势——即借助成熟的测试框架赋能数据采集任务，提升系统的鲁棒性和适应性。掌握此类技能不仅有助于应对企业级数据集成需求，也为后续深入研究反爬机制对抗、...

python3下使用scrapy实现模拟用户登录与cookie存储—— 中级篇（百度云俱乐部）

Kosmoo的博客

03-25

6035

python3下使用scrapy实现模拟用户登录与cookie存储—— 中级篇（百度云俱乐部） 1. 背景相关基础知识点回顾： python3下使用requests模拟用户登录 —— 中级篇（百度云俱乐部）：https://blog.youkuaiyun.com/zwq912318834/article/details/79665863 python3下使用scrapy实现模拟用户登录与coo...

主浏览器优化之路2——Edge浏览器的卸载与旧版本的重新安装

最新发布

轻草的博客

01-02

5757

但我在其中发现一点，为什么她会臃肿呢？就是她在被更新，也就是“保持最新版本”，提醒了我，那么我只要不是最新版本，保持我最顺手的，我认为最年轻的一个版本，不就能够让她永远年轻吗?这一版本不仅继承了原有Edge的优点，如良好的安全性与隐私保护，还极大地提升了对Web应用和网站的兼容性，并支持众多Chrome扩展程序，这使得Edge在功能性和用户体验上得到了显著提升。: 虽然火狐浏览器是您的好搭档，但同时保持对Edge浏览器的关注和使用，可以在不同场景下灵活切换，体验多种浏览器的优势，避免过度依赖单一产品。

爬虫实战（1）——爬取中国天气网并进行简单可视化

devilangel2的博客

04-07

1050

import requests from bs4 import BeautifulSoup from pyecharts.charts import Bar from pyecharts import options as opts ALL_data=[] def parse_url(url): headers={"User-Agent":"Mozilla/5.0 (Windows...

爬虫(13)——动态网页数据抓取(Selenium Chromedriver)

devilangel2的博客

04-14

855

目录动态网页数据抓取 AJAX：安装Selenium和 Chromedriver 验证安装是否成功动态网页数据抓取 AJAX：异步javascript和XML。在后台与服务器进行少量数据交换，Ajax可以使网页实现异步更新。这意味着可以在不加载网页的情况下，对网页进行更新。传统的网页要更新的话必须重载整个网页页面。例如： https://www.xfz.cn/ 点...

爬虫(11)——csv的读入写入

devilangel2的博客

04-11

854

写入csv文件 #以元组的形式写入 def write_csv1(): header=["username","age","height"] values=[("张三","18","180"), ("李四","19","190"), ("孙五","20","160")] with open("abc.csv",'w',en...

爬虫实战——使用普通方法爬取拉勾网（1）

devilangel2的博客

04-19

836

import requests import time from lxml import etree import re headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36...

爬虫（5）——BeautifulSoup（1）

devilangel2的博客

04-06

595

1.BeautifulSoup4 1.与lxml一样也是HTML/XML的解析器 2.B会载入整个文档，解析整个DOM树，lxml是局部，所以B的时间内存开销大。 3.操作简单。几大解析工具对比 from bs4 import BeautifulSoup html="" bs=BeautifulSoup(html,"lxml")#“lxml”为解析器，还有三种解析器如下 pr...

爬虫(12)——多线程爬虫(消费者生产者模式、condition模式)

devilangel2的博客

04-13

528

多线程爬虫多线程是为了同步完成多项任务,不是为了提高运行效率,而是为了提高资源使用效率来提高系统的效率。线程是在同一时间需要完成多项任务的时候实现的。最简单的比喻多线程就像火车的每一节车厢,而进程则是火车。车厢离开火车是无法跑动的,同理火车也不可能只有一节车厢。多线程的出现就是为了提高效率。同时它的出现也带来了一些问题。” import threading import time de...