python-递归爬虫爬取网站所有子链接

最新推荐文章于 2022-11-12 17:24:57 发布

原创最新推荐文章于 2022-11-12 17:24:57 发布 · 5.7k 阅读

39 ·

CC 4.0 BY-SA版权

文章标签：

#python #正则表达式 #爬虫 #递归算法 #url

爬虫专栏收录该内容

1 篇文章

订阅专栏

python-递归爬虫爬取网站所有子链接

python - 爬虫递归抓取网站信息

实现思路：

抓取网站所有信息并保存；
是用正则表达式提取子链接；
递归爬取子链接，保存爬取html信息

# 导入模块
import requests
import re
from urllib import parse

exist_url = []  # 存放已爬取的网页
writeCount = 0
urls = []

def load(url):
    # 检查该url是否爬过
    # 爬取URL
    global writeCount
    req = requests.get(url)
    html = req.content
    # urls.append(url)
    # 正则表达式提取子链接
    con = re.findall(r'(?<=href=")[^\"]+[^index].htm', html.decode('utf-8')) 
    
    # 存入所有子链接
    for x in range(0, len(con)):
        url2 = con[x]
        url1 = 'https://'  # 解析网页中所有子URL
        # 将链接拼接
        newUrl = parse.urljoin(url1, url2)
        urls.append(newUrl)
    print(urls)

    # 去掉已爬取的链接和重复链接
    unique_list = list(set(urls) - set(exist_url))
    print(unique_list)

    # 将读取内容写入文件
    with open('file/index' + str(writeCount) + '.txt', 'w', encoding='utf-8') as fp:
        fp.write(req.text)
    writeCount += 1
    # 遍历所有子URL再次调用
    for i in range(0, len(unique_list)):
        load(unique_list[i])

# 调用爬虫函数
url = 'https://'
load(url)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq_44812712

关注关注

3
点赞
踩
39

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

超强干货之---Python-数据爬取（爬虫）

房东的猫的博客

07-12

5万+

定义：深度优先搜索是一种遍历或搜索树或图的算法，从起始节点开始，一直沿着一个分支走到底，再回溯到上一个节点继续搜索下一个分支，直到遍历完所有节点。特点递归：通常用递归实现，或者使用栈来模拟递归过程。内存占用低：在有大量分支的情况下，内存占用比广度优先搜索低。适合目标较深的情况：如果目标节点距离起始节点较深，DFS能更快找到目标。适用场景需要遍历所有节点的情况，如生成树、迷宫搜索。目标节点较深，且分支较多时。在大规模数据爬取时，选择合适的存储方式取决于数据的规模、结构和访问需求。

python爬虫递归调用

04-29

此程序是爬虫实例

参与评论您还未登录，请先登录后发表或查看评论

Python爬虫---队列模拟递归遍历(广度遍历)

baihai的博客

09-12

1123

1.导入re模块：正则 2.导入urllib.request模块：爬虫 3.导入deque模块：双向队列 4.extend()：列表末尾一次性追加另一个序列中的多个值 5.findall()：相匹配的全部字串，返回形式为数组 6.compile()：将一个字符串编译为字节 7.popleft()：队列为先进后出，都是添加在列表最前面那个值 import urllib.request...

python - 爬虫递归抓取网站信息 rul、title、desc

草青工作室的专栏

04-07

1366

python - 爬虫递归抓取网站信息 rul、title、desc 实现思路：分两部分实现，1》抓取网站所有的 URL ；2》通过 URL 就可以方便的拉取任何内容；下面给出抓取所有 URL 的思路和 code，其实，实现比较简单只需要一个递归就搞定了，注意一下抓取的深度和回归条件，必定每个页面的 url 会有很多重复的； #!/usr/bin/env python3 # coding=utf-8 import codecs import os import random impo..

Python爬虫包 BeautifulSoup 学习（六）递归抓取

Mr.Phoebe的专栏

12-25

6668

之前的代码都是对单个静态页面进行抓取，这是人为简化的例子。爬虫的主要目的就是为了沿着网络抓取需要的内容。它们的本质是一种递归的过程。它们首先需要获得网页的内容，然后分析页面内容并找到另一个URL，然后获得这个URL的页面内容，不断重复这一个过程。让我们以维基百科为一个例子。# -*- coding: utf-8 -*- # @Author: HaonanWu # @Date: 2016-12-2

用python编写递归爬取多重网址的网站信息

太阳风

10-15

905

项目组要得到这个http://kalug.linux.org.tw/~shawn/project/thesis/目录网址下面的所有文件以及这个文件目录的下层目录以及更下层目录的文件包括这个，用迅雷，flashget好像都没这样的功能：找到给一个链接，然后再递归爬取这个链接下的所有链接的。于是自己写了一个，好像还行o(∩_∩)o...呵呵下面是代码，这里主要爬取pdf与doc文件。...

Python-pythonscrapy爬取电影天堂所有电影

08-12

在本案例中，“Python-pythonscrapy爬取电影天堂所有电影”项目旨在利用Scrapy来抓取电影天堂网站上的电影资源信息。电影天堂是一个知名的在线电影资源平台，提供了丰富的电影下载链接和介绍信息。首先，我们要...

python源码-案例框架-自动办公-28 Python爬虫爬取网站的指定文章.zip

最新发布

02-22

本压缩包中的资源聚焦于Python爬虫技术，用于自动化地从网站抓取特定文章。Python爬虫是网络数据获取的重要工具，它允许程序员按照特定规则遍历网页，提取所需信息，如文章标题、内容和元数据。在Python中，实现...

python爬虫-爬取豆瓣音乐

05-30

Python爬虫技术是数据获取的重要工具，特别是在网络信息丰富的今天，爬取网页数据成为数据分析、研究和应用的基础。本教程将聚焦于如何使用Python来爬取豆瓣音乐的相关信息，这涵盖了网页结构分析、HTTP请求、解析...

python爬虫爬取新闻示例.zip

01-19

URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。请求网页：爬虫使用HTTP或其他协议向目标URL发起请求，获取网页的...

Python爬虫获取页面所有URL链接过程详解

09-16

主要介绍了Python爬虫获取页面所有URL链接过程详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

Python爬虫包 BeautifulSoup 递归抓取实例详解

09-21

主要介绍了Python爬虫包 BeautifulSoup 递归抓取实例详解的相关资料,需要的朋友可以参考下

提取页面中所有链接

01-31

通过js来获取页面所有的a标签链接并统计链接个数

Python爬虫实例：爬取某个网页的子网页

VM_Alike的博客

10-12

9220

笔者的目的是对已有的白名单进行细化处理。比如现在有常见域名名单（百度、腾讯、搜狐等等），笔者要做的是对每一个域名爬取其所有的子网站，比如腾讯对应的还有腾讯视频、微信、QQ、腾讯新闻等等。笔者的输入是一个包含常见域名白名单的xls文件，输出是一个包含白名单细花后的所有网站的xls文件。代码如下： import tldextract, requests, xlwt, time, random,...

手把手教你用 Python 搞定网页爬虫

lsxxx2011的专栏

09-18

1210

编译：欧剃作为数据科学家的第一个任务，就是做网页爬取。那时候，我对使用代码从网站上获取数据这项技术完全一无所知，它偏偏又是最有逻辑性并且最容易获得的数据来源。在几次尝试之后，网页爬取对我...

Python 多线程、利用request使用代理、利用递归深度抓取电影网页的内容并将电影的介绍和下载链接保存到mysql中

ASmartPanda的博客

11-12

994

首先抓取主页内的所有符合条件的url和标题，去重后放到moviepage数据表中，后期利用递归在从moviepage中筛选出未被抓取的页面链接进行爬取，在抓取到电影详情页面时，只获取电影名，介绍，下载链接，并保存到movieinfo中。网页我大致分成两类，一类是类似目录和电影索引页面，暂时称为moviepage(英语不好，也不知道取啥名，后期在代码中也是这样分类的），一类是电影详情及下载页面，暂时称为movieinfo。1、虽然采用了多线程，而且我也想了办法去限制线程数，但好像线程数量并没有被限制。

wget 递归抓取网页

sike的专栏

07-15

464

wget -c -r -npH -k http://xx -c：断点续传 -r：递归下载 -np：递归下载时不搜索上层目录 -nd：递归下载时不创建一层一层的目录,把所有文件下载当前文件夹中 -p：下载网页所需要的所有文件(图片,样式,js文件等) -H：当递归时是转到外部主机下载图片或链接 -k：将绝对链接转换为相对链接,这样就可以在本地脱机浏览网页了 -c --continue Continue getting a partially-dow...

python编写爬虫获取区域代码-递归获取所有子页面

hdu09075340的博客

07-03

6474

上一篇文章用htmlparser写了一个java的获取区域的爬虫，觉得太笨重。发现python也可以实现这个功能。这里就简单写一个用python3写的小爬虫例子功能目标：对指定网站的所有区域信息进行筛选，并保存到文本中思路：1、定义一个队列，初始向队列中put一个地址 2、判断队列是否为空，不为空调用getURL函数，为空则结束 3、getURL获取URL链接的内容，并

python 对指定URL获取其子链接

勇往直前的专栏

08-22

2124

仿照http://blog.youkuaiyun.com/lming_08/article/details/44710779里面的方法, 获取指定URL 的所需的子链接及其描述. #!/usr/bin/python # -*- coding: utf-8 -*- import sys import urllib2 import re if len(sys.argv) != 2: print "%s ...

python爬虫递归爬取url

05-26

可以使用递归函数实现，以下是一个示例代码： ```python import requests from bs4 import BeautifulSoup ...另外，爬取网站时需要遵守相关法律法规和网站的规定，不得进行非法爬取或者恶意攻击。