爬取分页的标题

本文介绍了使用Python和requests库实现单线程爬虫的过程,目标网站为crowdfunder.com。作者通过简单的代码实现了对网站分页标题的抓取,并讨论了未登录状态下爬取内容的限制。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

还是跟着极客学院学习爬虫。
今天学习单线程爬虫,老师让爬一个众筹项目网站 https://www.crowdfunder.com。可是由于视频是去年的,视频里老师讲的这个网站的requests method是post,但是今天我查看网站看到的是get(或许我没看对)。
无所谓了,我就看着老师的(反正不是能看懂),自己用最笨的方法搞了个,自动爬取分页码的标题。又由于没有登陆,所以只能爬去部分。所以若是想爬取全部,还要学习如何自动登陆。


# -*- coding: utf-8 -*-
"""
Created on Mon May  9 14:28:45 2016

@author: s
"""

import requests
import re

header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36'}
url = r'https://www.crowdfunder.com/?page=1'

i = 1

#得到分页网址
def newurls():
    global i, html
    newurl = re.sub('page=(\d+)', 'page='+str(i), url, re.S)    
    if i > 7:
        print('The End')
        return
    print(newurl)
    #未登陆,只能提取部分
    html = requests.get(url, headers=header).text
    #print(html)
    titles()
#对每个分页进行标题提取
def titles():
    global i, html
    title = re.findall('class="card-title"(.*?)</div>', html, re.S)
    print(title)
    i += 1
    newurls()

newurls()    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值