Python3爬虫--页面数据寻找及解析

本文围绕爬取多家银行汇率项目,讲解页面数据获取方法。介绍了数据源在内嵌Iframe、json、js、xml等不同情况的页面,给出对应银行的URL,还提供了代码下载路径,涉及数据获取、代码解析等内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

一、需求说明

二、页面数据源在内嵌Iframe

三、页面数据源为json

四、页面数据源为js

五、页面数据源为xml

六、代码解析

七、数据库

八、结果展示



一、需求说明

近期有一个项目是爬取多家银行汇率,我提取了几个相似的案例,本文主要讲解页面数据获取方法。

二、页面数据源在内嵌Iframe

中银香港URL为: https://www.bochk.com/tc/investment/rates/deposit.html
实际数据URL为: https://www.bochk.com/whk/rates/depositRates/depositRates-input.action?lang=hk
需要爬取的数据如下图:
在这里插入图片描述页面数据寻找
在这里插入图片描述

三、页面数据源为json

汇丰银行URL为: https://www.personal.hsbc.com.hk/1/2/chinese/hk/investments/mkt-info/deposit-rates/interest-rates
实际数据URL为: https://rbwm-api.hsbc.com.hk/digital-pws-tools-investments-eapi-prod-proxy/v1/investments/interest-rate?ccyCode=HKD
需要爬取的数据如下图:
在这里插入图片描述页面数据如下
在这里插入图片描述

四、页面数据源为js

建银亚洲URL为: http://www.asia.ccb.com/hongkong_sc/personal/accounts/dep_rates.html
建银亚洲URL为: http://www.ccb.com/cn/home/news/HongKong/hkhqll01.js
需要爬取的数据如下图:
在这里插入图片描述页面数据如下
在这里插入图片描述

五、页面数据源为xml

汇丰银行URL为: https://www.dahsing.com/tc/html/program/hong_kong_dollar_deposit_rate.html
汇丰银行URL为: https://www.dahsing.com/tc/html/program/HKRateOutput_chi.xml
需要爬取的数据如下图:
在这里插入图片描述页面数据如下
在这里插入图片描述

六、代码解析

代码下载路径如下:
https://download.youkuaiyun.com/download/silentwolfyh/11296203

七、数据库


DROP TABLE IF EXISTS `cmp_mart_rate`;
CREATE TABLE `cmp_mart_rate` (
  `bank_code` varchar(11) NOT NULL COMMENT 'bank_code',
  `ccy_code` varchar(3) NOT NULL COMMENT 'currency code',
  `inrt_code` varchar(12) NOT NULL COMMENT 'interest rate code',
  `term_code` varchar(8) NOT NULL COMMENT 'term code',
  `band_amount` decimal(21,2) NOT NULL COMMENT 'band amount',
  `inrt_rate` decimal(11,6) NOT NULL COMMENT 'interest rate',
  `trxn_date` varchar(8) NOT NULL COMMENT 'transaction date',
  `sync_time` varchar(23) NOT NULL COMMENT 'synchronize time',
  `inrt_status` varchar(1) NOT NULL COMMENT 'inrt status',
  `data_create_time` timestamp(3) NOT NULL COMMENT 'data create time',
  `data_update_time` timestamp NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT 'data update time',
  `data_create_user` varchar(32) DEFAULT NULL COMMENT 'data create user',
  `data_update_user` varchar(32) DEFAULT NULL COMMENT 'data update user',
  `data_version` bigint(19) DEFAULT NULL COMMENT 'data version',
  PRIMARY KEY (`inrt_code`,`ccy_code`,`term_code`,`band_amount`,`sync_time`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

八、结果展示

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

辉哥大数据

你的鼓舞将是我最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值