再续抓数据经验谈--找到数据来源的方法

最新推荐文章于 2025-09-04 22:34:21 发布

原创最新推荐文章于 2025-09-04 22:34:21 发布 · 1.5k 阅读

2 ·

CC 4.0 BY-SA版权

技术心得交流专栏收录该内容

4 篇文章

订阅专栏

本文介绍了一种在互联网上高效抓取网页数据的方法，通过使用Chrome浏览器的审查元素功能及Network面板来定位数据源，进一步解析所需内容。适用于需要从网页抓取数据的人员。

说一些小技巧，分享给需要在互联网上，找数据，然后接收的。

往往一个网页上面呈现的内容，来源有很多个，浏览器会根据脚本的调用，访问很多个服务器地址，所以我们要抓取数据，最好知道数据的源头，直接从源头获取再进行解析。

比如我用的chrome浏览器，火狐也更好。

1.右击页面，从菜单中选择“审查元素”；

2.选择Network，功能栏，然后再F5，就可以看到整个页面内容的数据来源。

3.可以通过，选择文件类型分类来找到你要的数据源，看一下Response是否包含你要的内容，或者其他方法自己探索一下。

4.找到了之后，看看Header里面的RequestURL，访问一下。

5.有些涉及参数设置的检索，可以看看搜索的脚本代码，以实用url的方式去获取检索内容。

这个经验非常常用有效，分享给大家。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

迷路神码

关注关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

浅谈大数据领域数据仓库的数据集成

AI天才研究院

04-22

977

随着企业数字化进程加速，业务系统产生的结构化（关系型数据库）、半结构化（日志、JSON）、非结构化（文本、图像）数据呈指数级增长。这些数据分散存储于CRM、ERP、IoT传感器、第三方API等异构系统中，形成“数据孤岛”，导致企业无法全局分析业务规律。数据仓库（Data Warehouse, DW）作为支持决策分析的核心平台，其核心目标是将分散的、异构的数据整合为统一的、高可用的分析数据集。

企业数据治理之主数据治理--组织主数据

08-12

1474

一般来说，企业内部的组织数据来源于人力资源管理系统，人力资源总部是负责企业人员数据管理的，要将人员挂到相应的组织下面，所以在人力资源系统中，人力会把组织数据维护进去，人力的组织一般是按企业法人实体的维度进行管理的，即企业在人事局或税务局登记的实体组织进行的管理，主要是从人员挂靠的维度进行组织数据的管理，一般来说这是企业合法的组织机构。如上面提到的，企业内的组织数据可能不只存在一种，比如上面提到人力组织数据、财务组织数据，原则上只有能找到数据的维护部门，有部门对数据进行维护，就应该在企业内部统一管理起来。

参与评论您还未登录，请先登录后发表或查看评论

ASP.net难点解析

热门推荐

NDK2010_的专栏

12-02

1万+

认识Asp.net 中相对路径与绝对路径分类：技术文档2010-01-1217:051490人阅读评论(1)收藏举报好多人对相对路径与绝对路径老是混淆记不清楚，我从整理了一下，希望对大家的认识有帮助。 +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ 1.Request.Applicat

一个爬虫项目里有多个爬虫，如何识别数据来源

weixin_30252155的博客

11-22

221

问题描述：在一个爬虫项目里有多个爬虫进行数据的爬取，如何在pipeline中识别数据是来自哪个爬虫的，方法：方法一：在爬虫的parse函数下，对爬取的数据添加一个标识字段： 1 def parse(self, response): 2 item["come_from"]="spider_name" 方法二：在pipelines.py中的process_item函数里...

新冠病毒疫情的数据爬取和简单分析

weixin_43594279的博客

07-07

8321

新冠病毒疫情的数据爬取和简单分析近期有闲暇时间，有幸可以爬取一波新冠疫情的数据，并对全球的疫情形势做简单的分析。在此过程中对全球的疫情严重程度和抗疫情况有了个更深入的了解。一、数据来源和网站分析网上新冠疫情数据平台其实就那几个，这里选择“丁香医生”，链接：丁香医生疫情数据网址这个网站几乎没有反爬的机制，就正常分析就可以很快拿到想要的数据了。这个网站数据的获取过程不一，你可以根据自己的情况来选择。说一说两种爬取途径吧： 1、审查元素，抓包获取数据按F12，刷新可看到一堆json数据包，这些数据就是

如何爬取审查元素中Elements里有的，而源代码里没有的标签内容？

weixin_40531919的博客

03-14

2524

有些网页采用了异步加载的方式，将部分内容放在了其他的URL地址中，导致我们通过审查元素可以在相应的标签找到该内容，但在检查源代码的时候发现没有该内容，自然通过当前的url爬取不到目标数据。

怎么用审查元素检查网站代码，找到对应的id

缘源园

09-13

3201

第三步：选择对应的模块，右边element中可出现对应代码显现。第二步：一定要找到光标，一定。第一步：鼠标右键，审查元素。

【FND】查看OAF页面数据来源

qingshimoon4的博客

01-08

381

1、开启诊断配置文件设置如下图 2、打开指定的oaf页面，然后点击左下角的“关于此页” 展开“业务组件参考详细资料”，找到“视图对象” 点开相应的视图对象就可以看到查询sql了

2021-07-20优秀数据源获取方法是什么?

qq_38397646的博客

07-20

541

优秀数据源获取方法是什么? 【导语】数据采集的设计，几乎完全取决于数据源的特性，毕竟数据源是整个大数据平台蓄水的上游，数据采集不过是获取水源的管道罢了，那么优秀数据源获取方法是什么?大数据工程师主要通过哪些渠道获取数据源呢?下面就给大家进行一下具体介绍。 1、数据交易平台由于现在数据的需求很大，也催生了很多做数据交易的平台，当然，出去付费购买的数据，在这些平台，也有很多免费的数据可以获取。 (1)优易数据：由国家信息中心发起，拥有国家级信息资源的数据平台，国内领先的数据交易平台。平台有B2B、B2C两种交

如何跨渠道分析销售数据 - 7年制造业销售经验小结

weixin_45278215的博客

06-01

2120

在我过去6年销售工作生涯中，从第一年成为公司销冠后，我当时的确自满了一段时间，认为自己很了不起。但是当年的销售业绩并我没有拿到提成，最终大合同3680万也是公司另外一名销售经理去签订的。后来我就离开了这个公司，开始自己独自尝试开发客户，自己单独去谈订单。虽然已经离开那个公司已经5年了，但是那个创始人是销售出身，他的一些销售教导以及几年我自己个人通过读书和工作实践中的总结，我越来越发现如何分析销售数据，并利用这些数据最大限度地实现增长对于任何一个公司的发展，都显得十分重要。

【数据分享】土地利用矢量shp数据分享-福建

最新发布

qq_39719713的博客

09-04

1387

▲ 1km土地利用数据（2020年）▲ 土地利用数据（2025年）▲土地利用数据（2018年）▲ 30m土地利用数据（2023年）▲ 公路铁路道路河流水系作为我国东南沿海重要的经济省份与生态屏障，福建省兼具山海交融的地理特征与快速发展的社会经济需求，土地资源的科学管控、高效利用对其粮食安全保障、生态环境保护及城镇化高质量推进至关重要。为助力自然资源管理、城市规划、生态科研等领域的实践与研究工作，本次特别整理并分享福建省多套土地利用矢量 shp 数据。

数仓实践：企业级 CDP 数据工程实践经验

云祁QI

07-06

1464

大家好，许久未见，我是云祁～今天想和大家分享下企业级CDP项目建设中的数据工程实践。在很多情况下，大家可能会将数据工程与ETL的过程画上等号，但实际上ETL只是数据工程的一部分，其工作量通常仅占整个数据项目的30%左右。而一个数据工程项目，本质上是要解决三大问题：客户有什么？客户想要什么？怎样设计最合理？因此，在数据工程项目中，数据现状梳理、业务理解和数据模型设计等工作量通常占据了项...

查看网页源代码的方法

weixin_30587025的博客

03-22

2987

方法一：右键查看网页源代码方法二：F12开发者工具方法三：view-source:url 查看网络数据包：在开发者工具下选择network就可以查看网络数据包。F5刷新一下可以的到数据包。转载于:https://www.cnblogs.com/csm21/p/10579543.html...

怎么看网站调用了哪些js_网站流量怎么看如何分析流量来源

weixin_28757113的博客

01-18

419

一个网站的流量怎么看？通过多年的对比和筛选，小编发现主要网站流量查询工具分为两类：一种是实时流量查询工具，以百度产品为代表，它往往需要用户注册，并且需要将它给的代码注入自己网站页面才可使用；另一种是流量预估工具，大部分都是第三方站长工具。具体入口如下：第一类：实时流量查询工具百度统计工具：https://tongji.baidu.com/，查看数据：每天、每时每刻已发生过的访问数据，所有被访页面...

WEB信息收集（超级详细版）_web页面信息获取的方法(1)

2401_84968504的博客

05-13

1898

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。深知大多数网络安全工程师，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年网络安全全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上网络安全知识点！真正的体系化！

网页源代码查看竟然有这么多方法！你都知道吗？

驰网飞飞的博客

06-10

5242

当我们在浏览网页的时候，看到喜欢的网页，总想研究下它的代码是怎样写的，值得借鉴参考来修改自己的网站源码。你知道如何查看网页源代码吗？

实操续：HTML基本结构，以及数据来源，网页获取

junior5的专栏

08-24

1192

接着上篇，继续讲解HTML结构老司机，带你用30行代码爬取高清美女写真，附安装包+源码实操续：爬虫基础知识，浏览器最基本的配置方法今天继续讲解HTML结构爬虫网页内容获取 def down_image( page ): print(f'页面{page}，开始') t1 = time.time() # page页面跳转 url = f'https://www.36992.com/girls/list-{page}.html' resp = requests.

判断使用什么技术来爬取数据详细讲解

FAQEW的博客

06-02

1266

熟练掌握开发者工具，尤其是Network面板的使用，是高效识别数据来源的不二法门。遇到困难时，按上述流程一步步排查，绝大多数网站的数据加载方式都能被准确识别。判断目标网站使用哪种数据加载形式是爬虫开发的第一步，也是最关键的一步。这是区分服务器端渲染和纯客户端渲染的终极方法之一。判断的核心在于 View Source。

介绍一下主流的浏览器的开发者工具(js调试和查看网络请求）

pythonxxoo的博客

01-16

2135

Python微信订餐小程序课程视频 https://edu.youkuaiyun.com/course/detail/36074 Python实战量化交易理财系统 https://edu.youkuaiyun.com/course/detail/35475 1、打开开发者工具：右键–>检查 (快捷键 f12) 2、开发者工具介绍：（1）：选择页面的dom进行查看（2）：设备适配（3）元素： ① 可以查找到界面对应的dom； ② 通过计算样式，查看盒模型； ③ 在元素上选择右键，还可以：[当我们看到某个网站的css样