如何获取页面数据

获取页面数据之BeautifulSoup()方法

自动化中经常需要从页面获取数据,然后将数据用在测试代码中。那么如何从页面拿到想要的数据呢?此处介绍两种我比较习惯的方法:

1、常规方法:根据标签属性获取数据。

通过F12定位元素,查看数据在标签规律,从属性、text等获取数据。

def get_title_num_list(self):
    title_num = []
    length = len(self.driver.find_elements(By.XPATH, '//div[@role="tab"]'))
    for x in range(1, length + 1):
        num = self.driver.find_element(By.XPATH, '(//div[@role="tab"][' + str(x) + ']//span)[1]').text
        title_num.append(num)
    return title_num

2、用BeautifulSoup从源码查找需要的数据。

从BeautifulSoup可以用来解析HTML和XML页面数据,把网页数据变成树状结构的标签元素,再从找查找需要的数据。BeautifulSoup()需要两个参数,一个是文件名(可以是直接从网页读取,也可以是保存好的文件),另外一个是解析器,从web网页读取数据,直接使用html.parser即可。find_all是返回你查找的标签信息,只要不报错,可以一直使用find_all直至查到你需要的信息为止。

from bs4 import BeautifulSoup
def get_bpm_page_item_list(self, item):
    all_list = {}
    pattern = re.compile(r'[\u4e00-\u9fa5]+')
    soup = BeautifulSoup(self.driver.page_source, 'html.parser')
    input_list = soup.find_all("div", {'class': 'el-card__body'})[0].find_all("input")
    button_list = soup.find_all("div", {'class': 'el-card__body'})[0].find_all("button")
    for i in range(0, len(input_list)):
        input_list[i] = pattern.findall(str(input_list[i]))[0]... ... 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值