# 这是一个帮助我们获取历年(2010-2024)大学生毕业人数的爬虫
import pandas as pd
# 常量定义
BASE_URL = "https://www.dxsbb.com/news/143353.html"
OUTPUT_FILE = "2010-2024大学生毕业人数.xlsl"
def fetch_data(url):
"""
从指定 URL 获取数据
:param url: 数据源 URL
:return: 包含数据的 DataFrame
"""
try:
# 读取 HTML 表格,指定最后一个表格
res = pd.read_html(url)[-1]
return res
except Exception as e:
print(f"Error fetching data from {url}: {e}")
return None
def save_data(data, file_path):
"""
将数据保存到 CSV 文件
:param data: 包含数据的 DataFrame
:param file_path: 输出文件路径
"""
if data is not None:
try:
data.to_csv(file_path, index=False)
print(f"Data saved to {file_path}")
except Exception as e:
print(f"Error saving data to {file_path}: {e}")
else:
print("No data to save")
def main():
"""
主函数,负责调用数据获取和保存函数
"""
data = fetch_data(BASE_URL)
save_data(data, OUTPUT_FILE)
if __name__ == "__main__":
main()
这是一个帮助我们获取历年(2010-2024)大学生毕业人数的爬虫
Python网络爬虫开发
于 2024-10-30 00:08:24 首次发布
部署运行你感兴趣的模型镜像
您可能感兴趣的与本文相关的镜像
Python3.8
Conda
Python
Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本
2489

被折叠的 条评论
为什么被折叠?



