{{Shell}}复制或镜像整个网站

最新推荐文章于 2021-09-06 11:15:44 发布

最新推荐文章于 2021-09-06 11:15:44 发布 · 210 阅读

文章标签：

#shell #爬虫

本文的目的就是告诉你如何像爬虫一样以递归的方式收集网页上所有的URL链接，并逐个下载，这样我们就能下载整个网站所有的页面。

当然，我们不会空手去屠龙，我们需要一点小道具，她就是wget.(wget有很多强大的选项，用法非常灵活，请大家自己wget --help下)

要实现这个任务，可以按照下面的方式使用选项--mirror:

或者

wget -r -N -l DEPTH url

其中，-l 指定页面层级DEPTH，即wget只会向下遍历指定的页面级数。这个选项要与 -r 一同使用。另外 -N 允许对文件使用时间戳，url 表示下载的网站起始地址。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

iteye_3607

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Docker（四）：容器数据卷与Dockerfile构建镜像（发布）

✨ 欢迎来到【Seal ^_^ 的优快云博客】！✨

08-30

4万+

🟢 Docker（四）：容器数据卷与Dockerfile构建镜像（发布）

【微服务】springboot 构建docker镜像多模式使用详解

congge

05-26

5818

springboot 构建镜像多种模式使用详解

参与评论您还未登录，请先登录后发表或查看评论

Website-Cloner:一个Python脚本，可让您一次复制一个完整的网站

05-13

用法 python3 app.py http://example.com yourSite.com这将在../app.py中创建一个目录要求：Python 3 BeautifulSoup4请求根据Mozilla Public License，版本2.0许可这很老了，现在大多数网站都以不同的方式工作。可能不起作用。请自担风险。专为个人使用而创建。

制作整个网站镜像的shell脚本

sky92archangel的博客

01-21

857

#备份制作整个网站镜像的shell脚本 #暂时需用root #!/bin/bash # HOW TO USE: # bash download_website.sh http://www.XXXXXXXXXXX #判断是否输入 echo "输入的下载网址为:$1" #判断有无web目录 if [ ! -e ./web_mirror ] then

网站实时镜像

Win_Le的博客

05-17

1518

使用两台RHEL6虚拟机，其中一台作为服务器A（192.168.4.5），另外一台作为服务器B（192.168.4.205），两台主机都安装httpd网站软件安装并启用inotify-tools工具，就可以在同步发起端实现对指定目录的监控，一旦出现更改、增加文件等操作，立即触发相应的命令操作（本例中即上行同步）。根据监控结果触发同步操作，其中用到了一部分Shell控制语句，最好建立专用脚本来实...

linux shell 抓取网页镜像,使用wget做网站镜像

weixin_35902873的博客

05-13

328

记得以前在网上看到一个好网站的时候，因为那时上网时间少，就想着把它整个抓下来，存到自己硬盘上，想什么时候看就什么时候看，那多爽。记忆中那时用的软件就是webzip了，但是这家伙是个共享版，如果你用的不是什么什么特殊版本的话，那么这个家伙是会有限制的，功能上的限制忘了，记得的是好像它会插广告在网页内容里面，这实在是极不爽的一件事。现在虽然上网的时候多了，要查资料的话也能随时上网查，看到好的站也能随时...

网站被镜像如何处理，镜像了怎么办？

weixin_30832143的博客

06-10

438

何为镜像站点，有什么危害？镜像网站是指：一个或多个域名不同、但内容完全相同的网站。镜像网站的出现有可能是有意的，也有可能是无意的。有意的原因包括：软件资源网站给用户提供多个下载链接。某些网站提供多个镜像，使负载均衡或使服务更稳定；黑帽SEO复制多个网站，意图获得更多排名；整站被人复制抄袭也会造成镜像网站。镜像网站通常会造成复制内容，搜索引擎并不喜欢，对原创内容网站或站长想排名的网站可能造...

制作uefi shell引导iso镜像

07-24

引用[1]中提到的问题3（关于镜像分区）与我们的方法不同，我们直接构建ISO结构，不需要复制整个分区。根据引用[2]的提示，我们也可以将现有的Linux系统制作成ISO，但本任务仅要求UEFI Shell，所以相对简单。 ...

构建efi shell光盘镜像

03-23

我记得EDK II项目提供了这些文件，可能需要指导用户从哪里下载，比如从Intel的网站或Tianocore的GitHub仓库。这里需要注意版本兼容性，比如32位和64位的区别，以及文件命名，比如Shell_Full.efi。然后，创建正确的...

制作ARM架构的uefishell可引导ISO镜像

最新发布

07-25

- 将上面编译的`Shell.efi`复制为`bootaa64.efi`，这样系统启动后会直接进入UEFI Shell。 - 或者，如果我们希望固件本身包含Shell，那么我们可以使用固件直接引导，但ISO中也可以放置其他EFI应用。这里我们选择...

python 下载整个网站

10-04

本程序，可以下载整个网站，包括css，js文件。保存的路径和网站的url路径对应，相当于复制一份网站。目前还有不完善的地方： 1 不支持多线程 2 没考虑所有url的情况。 3 英文注释，我自己不忍直视。欢迎大家完善。

linux使用wget镜像一个网站

jisonami的专栏

04-25

1225

镜像一个网站的命令： wget -c -m -np -p -k -E -P YourDirectory http://www.server-world.info/en/ -c 断点叙传 -np 不下载站外连接 -p 下载网页需要的元素，如css，img等 -k 转换为本地的链接 -E 将‘text/html’文档以html扩展名保存 -P YourDirect...

docker通过shell制作镜像

空杯心态_虚怀若谷

09-20

562

python 发布网站_使用httphish.py能快速克隆网站并启动HTTP服务器发布该网站

weixin_39857899的博客

12-15

526

httphishQuick phishing website HTTP server demo in Python 3 - httphish.py????DisclaimerThis script only serves to be an example of how technically unsophisticated phishing attacks really are. Thus, it is...

如何快速镜像一个网站

security_yj的博客

09-06

1万+

仅需下述几个步骤即可快速镜像一个网站，镜像的内容包括html，js，css，image等静态页面资源，暂时无法镜像有用户交互的动态页面。 1、安装wget工具，以ubuntu系统为例 sudo apt-get install wget 2、下载网站资源以网站http://www.szsh-gov.com/为例，静态页面比较多执行如下命令： wget -r -p -np -k http://www.szsh-gov.com/ 下载完成后，查看本地目录结构如下： 3、搭...

GSHELL.NET镜像站群正式版[20181231]完成

站群程序

01-05

1446

GSHELL.NET镜像站群功能一比一实时更新镜像站点内容，百分百做到24小时无人管理。自动识别镜像站点编码，自动转换，无需处理编码问题等解决https无法克隆镜像问题模拟百度，360，搜狗，等多家UA解决无法采集问题增加POST。GET，等抓取方式，自定义IP段抓取一次失败自动切换自定义设置数据缓存时间，可设置实时更新，自定义更新问题建站方式：比...

使用Python下载整个网站的连接，适合能目录浏览的网站。

perry_peng的专栏

04-05

2297

python当中如何克隆一个列表

我的博客

06-25

4550

How to clone or copy a list?【python】正确复制列表的方法b = a #这种情况是将a和b放在同一个引用上了，不算是copyb = a.copy() #这个方法和下面的三个方法，虽然id(b) != id(a)，但是里面的对象id是一样的b = a[:]b = list(a)b = copy(a) b = copy.deepcopy(a) #只有这种方法...

shell中各种括号(),[],(()),[[]],{}等的作用大全及示例