爬取分页的标题

最新推荐文章于 2024-07-12 09:06:22 发布

mwmoo

最新推荐文章于 2024-07-12 09:06:22 发布

阅读量787

点赞数

CC 4.0 BY-SA版权

分类专栏：爬虫文章标签：爬虫 python 线程分页

本文链接：https://blog.youkuaiyun.com/mwmoo/article/details/51353869

爬虫专栏收录该内容

9 篇文章

订阅专栏

本文介绍了使用Python和requests库实现单线程爬虫的过程，目标网站为crowdfunder.com。作者通过简单的代码实现了对网站分页标题的抓取，并讨论了未登录状态下爬取内容的限制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

还是跟着极客学院学习爬虫。
今天学习单线程爬虫，老师让爬一个众筹项目网站 https://www.crowdfunder.com。可是由于视频是去年的，视频里老师讲的这个网站的requests method是post，但是今天我查看网站看到的是get（或许我没看对）。
无所谓了，我就看着老师的（反正不是能看懂），自己用最笨的方法搞了个，自动爬取分页码的标题。又由于没有登陆，所以只能爬去部分。所以若是想爬取全部，还要学习如何自动登陆。

# -*- coding: utf-8 -*-
"""
Created on Mon May  9 14:28:45 2016

@author: s
"""

import requests
import re

header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36'}
url = r'https://www.crowdfunder.com/?page=1'

i = 1

#得到分页网址
def newurls():
    global i, html
    newurl = re.sub('page=(\d+)', 'page='+str(i), url, re.S)    
    if i > 7:
        print('The End')
        return
    print(newurl)
    #未登陆，只能提取部分
    html = requests.get(url, headers=header).text
    #print(html)
    titles()
#对每个分页进行标题提取
def titles():
    global i, html
    title = re.findall('class="card-title"(.*?)</div>', html, re.S)
    print(title)
    i += 1
    newurls()

newurls()