为了visa面签预约学习python爬虫-DAY2

最新推荐文章于 2026-01-01 10:51:21 发布

原创

最新推荐文章于 2026-01-01 10:51:21 发布 · 1.1k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #python #爬虫 #gpt

本文介绍了如何使用Python的requests库和正则表达式，通过伪装User-Agent抓取网页并提取特定表格内容，解决正则匹配HTML表格外层结构的问题，包括处理空格和HTML属性顺序的灵活性。

1.引入正则：

使用正则的可以把获取到的整个页面里指定的需要的部分匹配出来

引入模块：

import re

2.实践：

import requests
import re

if __name__ == "__main__":
  #UA伪装：将对应的User-Agent封装到一个字典中
  headers = {
    'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Mobile Safari/537.36 Edg/121.0.0.0'
  }
  url = 'https://travel.state.gov/content/travel/en/legal/visa-law0/visa-bulletin/2024/visa-bulletin-for-march-2024.html'
  #https://travel.state.gov
  #https://travel.state.gov/content/travel/en/legal/visa-law0/visa-bulletin.html
  #https://travel.state.gov/content/travel/en/legal/visa-law0/visa-bulletin/2024/visa-bulletin-for-march-2024.html
  #-->地址变化，发起的不是一个ajax请求
  #get方法会返回一个响应对象
  response = requests.get(url=url,headers=headers)
  #text返回的是字符串形式的响应数据
  page_text=response.text
  #print(page_text)

  ex='<table\s+bord