在日常的工作或者学习中,经常需要从网页中获取需要的文件,python成了一个很好的工具。
提取页面源代码:
requests可以获取需要待提取的大量网页内容。
第一步,安装requests
pip install requests
第二步,requests常用的命令格式
import requests
URL='网址'
headers={'User ageny':'对应的具体代码'}
resp=requests.get(url)
print(resp.text)
第三步,解析数据
利用re进行解析
obj=re.compile(r.'',re.S)
result=obj.finditer(resp.text)
import csv
with open('**.csv',mode='w',encoding='utf-8') as f:
csvwriter=csv.writer(f)
for i in result:
dic=i.groupdict()
csvwriter.writerow(dic.values())