python建单抓取网页方法(python小白学习笔记一)

这篇博客介绍了Python3中四种不同的网页抓取方法,包括自动打开网页、保存网页到本地、使用urllib.request.urlretrieve以及Page库。还探讨了from urllib import request和import urllib.request的区别以及编码解码的相关知识。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

本代码使用的是python3.x

方法一:通过运行python,自动打开网页,并抓取该网页。

前提:先安装驱动,然后运行即可。详情请查看上一篇文章

import os
from selenium import webdriver

browser = webdriver.Chrome()#打开网页
browser.get("https://einvoice.taobao.com/index?&_emt=1541043729512#/online/invoice/success")
print(browser.page_source) #打印获取的内容

结果:自动弹出浏览器,并输出:

方法二:抓取到网页,保存到本地文件

先抓取文件,然后通过保存网页到本地,同时可以查看文件字节大小

import urllib.request   #导入对应的模块
#首先爬取一个网页,并抓取到内容赋值给一个变量
file=urllib.request.urlopen("https://login.taobao.com/member/login.jhtml?f=top&sub=true&redirectURL=http%3A%2F%2Feinvoice.taobao.com%2Findex%3F%26_emt%3D1541043729512")
data=file.read()
print(data)
#以写入方式打开一个本地文件,命名为 *.html等网页格式
fhandle=open('D:/爬虫/抓取文件/2018110201.html','wb')
#将1仲变量值写入该文件
fha
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值