爬取学校新闻网站文章

本文介绍了使用Python爬虫抓取学校新闻网站的过程,包括获取新闻目录、提取每篇文章的日期和标题、按日期限制爬取范围、获取详细信息如作者、正文和浏览数。在实施过程中遇到的一个问题是新闻浏览数无法直接爬取,原因是该数据通过Ajax动态加载。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬取学校新闻网站文章

爬取思路

第一步,用requests获取新闻目录的网页源码。

def get_page(url):   #页面源代码
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    else:
        print("Fail to get page")
        
url = "http://news.fzu.edu.cn/html/fdyw/" + str(offset) + ".html"
html = get_page(url)

第二步,获取每一篇文章的url,并先提取日期、标题

def get_articles(html, new_list):
    doc = pq(html)
    articles = doc('.list_main_content li')
    
get_articles(html, new_list)

第三步,通过日期限制爬取范围,并对每一则新闻的url发起get请求

if new["date"][:4
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值