如何使用python爬取数据

最新推荐文章于 2024-04-15 10:34:36 发布

原创最新推荐文章于 2024-04-15 10:34:36 发布 · 2.3k 阅读

12 ·

CC 4.0 BY-SA版权

python 专栏收录该内容

7 篇文章

订阅专栏

本文介绍如何利用Python的Requests库进行简单的网页数据抓取。通过安装Requests库，设置请求头来模拟浏览器行为，发送GET请求并获取目标网站的HTML内容，最后将这些内容保存到本地文件中。文章详细展示了从安装库到数据存储的全过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在爬取数据之前首先使用：pip install requests 命令

下载：requests包提示下载完成后执行下列代码：

import requests

base_url ="http://list.iqiyi.com/www/1/-------------11-1-1-iqiyi--.html"#此处为你所要爬取数据的网址

header = {'user-agent': 'Mozilla/5.0'}#此处为伪装成浏览器
res = requests.get(base_url, headers=header)#发送请求并返回包含相应的html文件内容的长字符串
# print(res.text)
print(res.apparent_encoding)#打印字符串的编码格式
# res.encoding = "GB2312"#如果编码格式不是‘utf-8’则应显示的指明对应的编码格式
# print(res.text)
with open("data1.txt", 'w', encoding='utf-8') as f:#将读取到的内容打印在相应的.txt文件中
    f.write(res.text)