爬虫处理网页中的ajax请求

最新推荐文章于 2024-10-19 15:38:04 发布

原创

最新推荐文章于 2024-10-19 15:38:04 发布 · 647 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #ajax

本文介绍如何使用Python爬虫处理网页中的AJAX请求。通过Google Chrome的开发者工具查看XHR，发现目标网站向https://www.taptap.com/ajax/top/download发送GET请求，携带参数page和total。爬虫模拟请求，解析返回的HTML内容，获取所需数据。

浏览器：Google Chrome

Python版本：3.7

所引用的库：

from collections import deque
import requests
import json
from bs4 import BeautifulSoup
import re

解决步骤：

按F12查看需要爬取的网页源代码，点击Network中的XHR，可以看到在Name文件列表找到对应文件。
单击该文件，点击Headers，可以发现网站其实是向https://www.taptap.com/ajax/top/download?page=2&total=30发出了GET请求。

再往下拉可以看到请求的参数为page和total：
根据获取到的信息设置初始参数

total = 30
page = 2
json_url = 'https://www.taptap.com/ajax/top/download?total=' + str(total) + '&page=' + str(page)
unvisited = deque()     # 待爬取的链接的集合，使用广度

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

only9nine

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Python - 爬虫_Ajax的请求方式

熬夜学习猿的博客

11-29

1392

前言这篇文章将爬取豆瓣电影为例来深入爬虫数据，有些网页通过请求的html代码不能直接拿到数据，本文用Ajax来进行分析，学习Ajax的请求方式。一、Ajax的get请求方法：思路：抓请求接口（URL 、请求方式）获取豆瓣电影的第一页数据，并且保存起来（URL、UA请求头）请求对象的定制获取响应的数据数据下载到本地（写入文件，如果json数据就要以json方式进行保存下来） # get请求 # 获取豆瓣电影的第一页的数据并且保存起来 import urllib.req

8.网络爬虫—深入理解Ajax请求与SSL证书验证

weixin_63740705的博客

04-20

1863

这类状态码表示请求已被服务器接收，需要客户端继续发送其他信息才能完成请求。例如，100（Continue）表示服务器已接收到请求头，客户端可以继续发送请求体。可以将响应数据按照指定的编码方式解码为Unicode字符串。：这类状态码表示需要客户端进行额外的操作才能完成请求。：这类状态码表示服务器在处理请求的过程中发生了错误。：这类状态码表示请求包含语法错误或请求无法实现。：这类状态码表示请求已成功被服务器处理。可以获取响应的编码方式。

2 条评论您还未登录，请先登录后发表或查看评论

2 条评论

喜欢玩游戏的大尾巴狼 2021.04.08
你这个不用爬虫也可以啊。。。原理就是不断的对数据接口进行HTTP请求。拿回来的数据直接进行解析即可啊。。。

麻吉Sama 2019.08.24
真烦人，我要无规则rul爬取

原创丨爬虫神器！用它可以实时处理和保存 Ajax 数据

静觅

06-01

570

“ 阅读本文大概需要 5 分钟。 ”做爬虫的时候我们经常会遇到这么一个问题：网站的数据是通过 Ajax 加载的，但是 Ajax 的接口又是加密的，不费点功夫破解不出来。这时候如果我们想绕...

爬虫笔记-Ajax请求

qq_54152856的博客

02-14

556

1、get请求豆瓣电影前十页 # https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=& # start=40&limit=20 # 下载豆瓣电影前十页的数据 # 1、请求对象的定制 # 2、获取响应的数据 # 3、下载数据 import urllib.request import urllib.parse def create_request(page): .

Python爬虫之Ajax请求

一直努力

08-17

1万+

AJAX 是 Asynchronous JavaScript and XML（异步的 JavaScript 和 XML）的缩写。AJAX 通过使用原有的 web 标准组件，实现了在不重新加载整个页面的情况下，与服务器进行数据交互。例如在新浪微博中，你可以展开一条微博的评论，而不需要重新加载，或者打开一个新的页面。但是这些内容并不是一开始就在页面中的，而是在你点击的时候被加载进来的。这就导致了你抓取这个页面的时候，并不能获得这些评论信息。

python爬虫之ajax请求

weixin_34411563的博客

08-09

365

python爬虫之ajax请求爬取豆瓣网的分页浏览get请求： import urllib.request import urllib.parse url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&...

Python网络爬虫案例实战：动态网页爬取：什么是Ajax

andyyah晓波的博客

08-12

1202

Ajax（Asynchronous JavaScript and XML）异步JavaScript和XML，即异步的JavaScript 和XML。它不是一门编程语言，而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。对于传统的网页，如果想更新其内容，那么必须要刷新整个页面，但有了Ajax，便可以在页面不被全部刷新的情况下更新其内容。

python爬虫基于requests模块发起ajax的get请求实现解析

09-18

在爬虫中，AJAX请求意味着爬虫需要像浏览器那样处理JavaScript代码，以获取由AJAX加载的数据。 GET请求是HTTP协议中一种简单的请求类型，通常用于请求服务器发送指定资源，该资源的数据通常会通过URL参数传递。在...

Python3爬虫中关于Ajax分析方法的总结

09-16

在处理这类网站时，理解如何分析Ajax请求是至关重要的。以下是对Ajax分析方法的总结：首先，要查看Ajax请求，我们需要借助浏览器的开发者工具。以Chrome为例，打开目标网页（例如：...

Python爬虫学习之Ajax请求

侠~~的博客

05-16

835

Ajax全称是Asynchronous JavaScript and XML，即异步的JavaScript和XML。它不是一门编程语言，而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页内容的技术。本次爬虫学习了Ajax分析与爬取的基本流程，对于python爬取有了更深的理解。最后附上完整的代码链接。本章代码。

python学习ajax_Python3爬虫中关于Ajax分析方法的总结

weixin_39625429的博客

11-30

128

这里还以前面的微博为例，我们知道拖动刷新的内容由Ajax加载，而且页面的URL没有变化，那么应该到哪里去查看这些Ajax请求呢？1. 查看请求这里还需要借助浏览器的开发者工具，下面以Chrome浏览器为例来介绍。首先，用Chrome浏览器打开微博的链接https://m.weibo.cn/u/2830678474，随后在页面中点击鼠标右键，从弹出的快捷菜单中选择“检查”选项，此时便会弹出开发者工具...

今天终于把爬虫的Ajax请求搞懂了

最新发布

qq_51749909的博客

10-19

1458

本文详细介绍了`Ajax`数据爬取的原理和实践方法，包括使用Python的requests库和分析Ajax请求的技巧。

python爬虫之爬取案例网页ajax请求的数据

水w的博客

05-07

3021

本篇案例以这个网站阿里云智能logo设计为例，爬取ajax请求传送的数据。

python爬虫之爬取案例网页ajax请求的数据3之实现跨页爬取

水w的博客

05-09

1598

再进一步，我们通过这些有规律的变化来改变参数，进而达到模拟用户点击“加载更多”这一操作，爬取更多的logo图片。

爬虫爬取点击动态ajax请求的数据方法

qq_36993953的博客

09-22

289

下面展示一些代码片。 // An highlighted block @Test public void Test() throws Exception{ // 加载驱动 System.setProperty("webdriver.gecko.driver", "d://geckodriver.exe"); FirefoxDriver driver = new FirefoxDriver(); // 打开指定的网站 Stri

Pyhon爬虫之Ajax的数据爬取

恐龙让Lee的博客

03-30

3721

全称Asynchronous JavaScript and XML，即。它不是一门编程语言，而是。对于传统网页，要更新内容则需要刷新页面，而Ajax可以在页面不被刷新的情况下更新。（这个过程实际是页面在后台与服务器进行了数据交互，获取数据后，再利用JavaScript改变网页。

爬虫之获取ajax加载的内容

Im ok的博客哦

06-29

3800

网页中的代码来源一般是服务器将整个网页的数据全部返回，但这在访问量大的情况下会给服务器带来不小的压力，因此有些时候采用的是ajax，只给部分内容，其余的有关数据方面的信息只在用户需要时返回。由于ajax的异步的特性，所以不会影响到用户的访问体验。有些网页内容使用AJAX加载，只要记得，AJAX一般返回的是JSON,直接对AJAX地址进行post或get，就返回JSON数据了。“作为一名爬虫工程师...

python 爬虫遇到ajax动态更新的数据的处理方法

aheadkeeper的专栏

08-07

957

当我们使用爬虫从网站中爬取数据时，对于普通的网页当然有成熟的获取页面，分析页面的工具，这里不再赘述。由于现在网站的页面内容，大都是通过response，返回一个页面框架。这个框架里这么数据也没有，等到这个页面加载完毕后，触发ajax请求，通过ajax异步请求，来获取数据。这种方式，用普通的方式，我们的爬虫什么也得不到。面对这种情况，我们有以下两个思路：首先：模拟ajax请求，直接获取ajax请求返回的数据，对这些返回的json数据进行分析。此种方法，需要用request 进行第一次访问，

Python3爬虫中Ajax请求分析方法详解

本文围绕‘Python3爬虫中关于Ajax分析方法的总结’这一主题，系统性地阐述了在实际项目中如何识别、定位并处理Ajax请求，尤其以微博移动端为例，详细讲解了借助浏览器开发者工具（如Chrome DevTools）来监控网络通信...

爬虫 处理网页中的ajax请求

2 条评论

爬虫处理网页中的ajax请求