一、爬取政府采购严重违法失信行为信息记录
import requests
if __name__ == "__main__":
url = "http://www.ccgp.gov.cn/cr/list";
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:103.0) Gecko/20100101 Firefox/103.0'
}
response = requests.get(url=url,headers=headers);
page_text = response.text;
with open('e:/Reptile/zfcg.html','w',encoding='utf-8') as fp:
fp.write(page_text)
print('爬取数据结束!!!|')
二、网站数据分析
根据F12调试信息可看出,该网站数据结构较为简单,为HTML表格形式,简单根据请求获取响应页数据即可得到页面数据信息,如需精确提取其中企业名称、组织结构代码、企业地址等数据信息,可通过正则方式进一步对数据进行分离。

676

被折叠的 条评论
为什么被折叠?



