python 爬虫实例 爬取中国大学排名

本文介绍了一个使用Python的requests和BeautifulSoup库爬取指定网站上的大学排名数据的方法。通过定义函数获取HTML文本,解析HTML并填充大学列表,最后打印出前20所大学的排名、学校名称和分数。
Python3.8

Python3.8

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

import requests
from bs4 import BeautifulSoup
import bs4
def gegHTMLText(url):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

def fillUnivList(ulist,html):
    soup = BeautifulSoup(html, "html.parser")
    for tr in soup.find('tbody').children: #采用循环查找html文本中的tbody标签并且将它的孩子children做一个遍历
        if isinstance(tr, bs4.element.Tag): #检测tr标签的标签类型 如果不是bs4库里面定义的Tag类型 则过滤掉
            tds = tr('td')
            ulist.append([tds[0].string, tds[1].string, tds[2].string])

def printUnivList(ulist,num):
    print("{:^10}\t{:^6}\t{:^10}".format("排名", "学校", "分数")) #表头信息的打印
    for i in range(num):
        u = ulist[i]
        print("{:^10}\t{:^6}\t{:^10}".format(u[0], u[1], u[2]))


def main():
    uinfo = []
    url = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html"
    html = gegHTMLText(url)
    fillUnivList(uinfo, html)
    printUnivList(uinfo, 20)
main()

 

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

### Python动态网页爬虫实例代码与教程 动态网页爬虫是指通过模拟浏览器行为来抓取由JavaScript渲染的内容。由于许多现代网站依赖于前端框架(如React、Vue.js等),传统的静态HTML解析方法可能无法满足需求。以下是基于Selenium库的一个简单示例,用于动态加载并提取数据。 #### Selenium简介 Selenium是一个强大的工具,能够控制Web浏览器执行自动化操作。它特别适合处理需要交互才能显示内容的页面[^1]。 #### 安装必要的库 在开始之前,请确保已安装以下Python库: ```bash pip install selenium requests lxml ``` 如果尚未下载ChromeDriver或其他浏览器驱动程序,则可以从[Selenium官网](https://www.selenium.dev/documentation/en/webdriver/driver_requirements/)找到对应版本链接,并将其路径配置到环境变量中或者直接指定给`webdriver.Chrome()`初始化参数。 #### 示例代码:使用Selenium爬取带Ajax加载的数据 下面展示了一个简单的例子,演示如何利用Selenium访问带有异步请求更新内容的目标站点: ```python from selenium import webdriver import time def dynamic_crawler(url): options = webdriver.ChromeOptions() # 设置无头模式运行(不打开实际窗口),提高效率 options.add_argument('--headless') driver = webdriver.Chrome(executable_path='/path/to/chromedriver', options=options) try: driver.get(url) # 等待几秒钟让JS完全加载完毕 time.sleep(5) # 执行滚动到底部的操作以触发更多内容加载 last_height = driver.execute_script("return document.body.scrollHeight") while True: driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") time.sleep(2) # 继续等待新内容被加载出来 new_height = driver.execute_script("return document.body.scrollHeight") if new_height == last_height: break last_height = new_height page_source = driver.page_source finally: driver.quit() return page_source if __name__ == "__main__": target_url = 'http://example-dynamic-site.com' result_html = dynamic_crawler(target_url) print(result_html[:100]) # 输出前一百字符作为调试信息 ``` 此脚本实现了基本的功能,包括启动无界面版Google Chrome浏览目标URL地址;通过不断向下翻页直到没有新的条目为止;最后关闭浏览器进程并将最终获得完整的DOM树返回供进一步分析[^2]。 注意,在某些情况下仅靠增加延时并不能保证所有预期元素都呈现出来,这时就需要研究具体的AJAX调用机制并通过拦截HTTP流量的方式获取原始JSON响应数据了。 #### 数据解析部分 对于已经取得的完整HTML文档字符串形式的结果,我们可以继续采用类似于之前的XPath表达式来进行结构化抽取工作: ```python from lxml import etree html_content = """...""" # 假设这是上面得到的整体HTML文本 tree = etree.HTML(html_content) titles = tree.xpath('//your/xpath/expression') # 替换为适当的选择器语法 for t in titles: print(t.text.strip()) ``` 以上就是关于构建一个基础型Python动态网页爬虫项目的介绍以及具体实现步骤说明[^3]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值