使用Python爬取大学排名数据

本文介绍了一个简单的Python爬虫项目,该项目旨在抓取好大学排行网站上的大学排名数据,并将其保存为CSV文件。爬虫利用了HTTP请求、BeautifulSoup库解析HTML,从网页中提取了大学名称、位置等信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简单的了解了一下python爬虫的知识:HTTP协议、robots协议、requests库、beautifulsoup库、提取信息的方法。

爬取好大学排行的大学排名数据,并存储到csv文件中。

数据所在的结构如下:

<tr class="alt">
<td>1  #网页中缺少了td,生成数据的时候补上
<td><div align="left">清华大学</div></td>
<
td>北京</td><td>94.0 </td>
<
td class="hidden-xs need-hidden indicator5">100.0 </td>
<
td class="hidden-xs need-hidden indicator6" style="display:none;">97.70%</td>
<
td class="hidden-xs need-hidden indicator7" style="display:none;">40938</td>
<
td class="hidden-xs need-hidden indicator8" style="display:none;">1.381</td>
<
td class="hidden-xs need-hidden indicator9" style="display:none;">1373</td>
<
td class="hidden-xs need-hidden indicator10" style="display:none;">111</td>
<
td class="hidden-xs need-hidden indicator11" style="display:none;">1263428</td>
<
td class="hidden-xs need-hidden indicator12" style="display:none;">613524</td>
<
td class="hidden-xs need-hidden indicator13" style="display:none;">7.04%</td>
</
tr>

获取网页数据(使用request)---->使用BeautifulSouup处理网页,并写入列表中存储------->写入CSV文件;

import requests
from bs4 import BeautifulSoup
import bs4
import csv

def getHTML(url):
    try:
        r = requests.get(url)
        print(r.status_code)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        with open('aaa.html', 'wb') as f:
            f.write(r.content)
            f.close()
        return r.text
    except:
        return ''



这个函数遇到的问题挺多的:
在提取首行标题的时候,Tag对象还是字符串没有搞清楚;
创建csv加入newline = ‘’,不会产生空行
def fillUniverList(ulist,HTML): rank = 0 ulistFirst = [] soup = BeautifulSoup(HTML,'html.parser') thead = soup.find('thead') tr = thead.find('tr') # print(tr) for th in tr('th'): # if th['style'] == "text-align:center;": # ulistFirst.append(th.string) if isinstance(th,bs4.element.Tag): if th['style'] == "text-align:center;": ulistFirst.append(th.string) else: for select in th('option'): ulistFirst.append(select.string) # print(ulistFirst) ulist.append(ulistFirst) for tr in soup.find('tbody').children: if isinstance(tr, bs4.element.Tag): rank += 1 tds = tr('td') ulist.append([rank, tds[1].string, tds[2].string, tds[3].string, \ tds[4].string, tds[5].string, tds[6].string, tds[7].string, tds[8].string, \ tds[9].string, tds[10].string, tds[11].string, tds[12].string]) def printUniverList(ulist): for univer in ulist: print(univer) def storeInCSV(ulist): with open('univer.csv','w',newline = '') as csvfile: writer = csv.writer(csvfile) writer.writerow([1,2,3,4]) for univer in ulist: writer.writerow(univer) csvfile.close() def main(): ulist = [] url = 'http://zuihaodaxue.cn/zuihaodaxuepaiming2017.html' HTML = getHTML(url) fillUniverList(ulist,HTML) # printUniverList(ulist) storeInCSV(ulist) main()

结果如下:

 

转载于:https://www.cnblogs.com/liuweizhuang/p/8371581.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值