Python 爬取网页并存储至本地

最新推荐文章于 2025-06-03 17:21:29 发布

原创最新推荐文章于 2025-06-03 17:21:29 发布 · 8.5k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#Python #爬虫 #本地存储

Python网络爬虫专栏收录该内容

2 篇文章

订阅专栏

本文介绍如何使用Python进行网页爬取并将内容保存到本地。通过具体示例，演示了使用urllib.request模块从网易新浪获取网页源代码，并采用适当命名规则存储至本地的过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python 爬取网页并存储至本地

使用Python爬取网页，并将该网页存储至本地目录。

注：本文爬取的是网易新浪的一个网页。

代码如下：

import urllib.request 

def getHTML(url):  
     html = urllib.request.urlopen(url).read()   
     return html
  
def saveHTML(file_name, file_content):  
     # 注意windows文件命名的禁用符，比如 /   
     with open(file_name.replace('/', '_') + ".html", "wb") as f:  
            # 写文件用bytes而不是str，所以要转码   
            f.write(file_content) 


aurl = "https://mil.news.sina.com.cn/2019-06-27/doc-ihytcerk9733591.shtml"

html = getHTML(aurl)
print("网页已爬取")

saveHTML("sina", html)
print("网页已存储至本地")

目标网页如下： 爬取的网页