requests、BeautifulSoup结合pandas.DataFrame将爬取到的多页数据保存到Excel表

本文介绍如何利用requests库获取网页数据,结合BeautifulSoup解析HTML,再通过pandas将数据整理成DataFrame,最后保存到Excel文件,实现多页数据的高效爬取和存储。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

# 将抓取的数据分为不同的类别,将单个数据转换为2D列表以在数据pandas数据帧中使用的方法。

from bs4 import BeautifulSoup
import csv
import re
import pandas as pd
import requests
from time import sleep
from tqdm import tqdm  # 显示进度条


url = "https://www.kpaa.or.kr/kpaa/eng/list.do?"
headers = {
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36'
    }
pbar = tqdm(total=100)  # 显示进度条,ctrl+alt+t
for page in range(390)<
使用pandas将网站数据保存Excel中是一个常见的数据处理任务。以下是使用pandas库将网站数据保存Excel文件的步骤: 1. 首先,确保你已经安装了pandasrequests库。如果没有安装,可以使用pip安装: ``` pip install pandas requests openpyxl ``` 2. 使用requests库获取网站数据: ```python import requests url = 'https://example.com/data' response = requests.get(url) data = response.json() # 假设返回的是JSON格式的数据 ``` 3. 使用pandas处理数据保存Excel: ```python import pandas as pd # 假设数据是一个字典列 df = pd.DataFrame(data) # 保存Excel文件 excel_file = 'output.xlsx' df.to_excel(excel_file, index=False) print(f"数据保存到 {excel_file}") ``` 4. 如果网站返回的是HTML格,可以使用pandas的read_html函数: ```python import pandas as pd url = 'https://example.com/table' tables = pd.read_html(url) # 假设我们想要第一个格 df = tables[0] # 保存Excel文件 excel_file = 'output.xlsx' df.to_excel(excel_file, index=False) print(f"数据保存到 {excel_file}") ``` 5. 对于更复杂的情况,你可能需要使用BeautifulSoup来解析HTML内容: ```python import pandas as pd import requests from bs4 import BeautifulSoup url = 'https://example.com/complex-table' response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') # 假设数据在一个特定的格中 table = soup.find('table', {'id': 'data-table'}) df = pd.read_html(str(table))[0] # 保存Excel文件 excel_file = 'output.xlsx' df.to_excel(excel_file, index=False) print(f"数据保存到 {excel_file}") ``` 这些方法可以根据具体的网站结构和数据格式进行调整。pandas提供了强大的数据处理和导出功能,使得将网站数据保存Excel变得相对简单。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值