Python爬取新版湖经官网首页导航栏内容并生成CSV文件

本报告介绍了一种使用Python网络爬虫技术从湖北经济学院网站抓取导航栏下所有栏目文字内容的方法,并将其整理成表格形式保存为CSV文件。报告详细记录了实验环境、内容、目的、步骤及代码,展示了最终爬取结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

一、题目

运用所学网络爬虫技术,爬取新版湖北经济学院学校主页(http://www.hbue.edu.cn)导航栏内包括学校概况、教学单位、组织机构...招生就业、信息公开等所有栏目下的全部文字内容,设计成表格形式并保存为CSV文件。

以教学单位为例(如下图所示),需将教学单位下的所有学院名称爬取下来,其他栏目同样要求。

 

二、报告要求

报告具体应满足如下要求:

1.报告采用统一封面,每个人填写报告题目、学院、班级、姓名、学号、时间等信息;

2.报告应包括摘要、实验环境、实验内容、实验目的、实验步骤、实验代码、实验结果(最终爬取、存储的表格附后)

3.报告最后要撰写课程学习小结

4.参考文献(如果有)

import requests
from bs4 import BeautifulSoup
import pandas as pd

url = 'http://www.hbue.edu.cn/'
html = requests.get(url).content
soup = BeautifulSoup(html, 'html.parser')
Hbue = pd.DataFrame({})
#循环读取导航栏中的每一项
for i in range(1,8):
    hbue = soup.find_all('li', {'class': 'menu-item i'+ str(i) +''})[0]
    spans = hbue.find_all('a')
    a = [i.string for i in spans[0:]]
    data = pd.DataFrame({
        str(a[0]): a[1:]
    })
    Hbue = pd.concat([Hbue, data],axis=1)
    Hbue.append(data)
#生成csv
Hbue.to_csv('hbue.csv')

记得要加载类库

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值