wget实现网站克隆

下载网站

可以这样

wget -r --level=0 -k -p --tries=0 https://www.django-rest-framework.org/

具体参数看后面解释

假如我们想做这个网站的镜像怎么办呢?

可以直接用 -m表示镜像网站

wget -m http://www.w3school.com.cn/

这种是最简单暴力的用法,但是如果网站引用了外部的链接,这个下载下来的东西太多了,而且有些asp后缀的页面,我们如果想在本地用浏览器打开看没法直接打开,而且有时候我们可能只想下载某个网站目录下的文件,不想下载太多。

我们需要限制下。

我们用-np参数来限制只拉取当前目录不拉取父目录的网址数据我们用-k参数链接指向本地,便于浏览我们用-k参数链接指向本地,便于浏览我们用-p参数让图片等信息需要来展示在HTML上的我们全下载我们用-p参数让图片等信息需要来展示在HTML上的我们全下载

假如我们只想下载w3school上的JS教程,我们用如下命令即可:

wget -m -k -np -p http://www.w3school.com.cn/js/index.asp

但是这个命令还是缺少一些东西,比如后缀有ASP,其它的还有断点续传,文件后缀,模拟浏览器,https下是否检查证书等。

我们最后总结下最合适的镜像网站语法,假如想对网站http://www.XXXX.com做镜像,而且做出来的镜像方便本地浏览器直接打开查看,用如下命令:

wget -c -m -k -np -p -E -U Mozilla –no-check-certificate http://www.XXXX.com

WGET做镜像演示

我们先实际操作一下,我们下载下JS的教程.。

wget -c -m -k -np -p -E -U Mozilla –no-check-certificate http://www.w3school.com.cn/js/index.asp

我们在左侧标红区域点击,跳转到的页面还是本地

测试看来,我们成功的镜像了JS教程的页面,而且页面显示完好。

总结:最终用到的命令如下:

wget -c -m -k -np -p -E -U Mozilla --no-check-certificate 欲镜像的网址
wget -c -m -k -p -e robots=off -E -U Mozilla --no-check-certificate 欲镜像的网址(如果robots限制了采集内容可以用这一条)

你也可以用一些CHM制作软件把镜像完的本地HTML制成CHM格式的教程发布出去。

如果你想进行限速,间隔下载等特殊需求可以网上查找下wget的命令帮助进行解决,这个比较简单,就不一一介绍了。

如果命令语法在实际测试中有问题,欢迎提出建议。

wget -c -m -k -np -p -E -U Mozilla –no-check-certificate http://www.w3school.com.cn/js/index.asp

wget -c -m -k -np -p -E -U Mozilla --no-check-certificate https://www.zysj.com.cn/lilunshuji/index_2.html

wget用法说明

[root@localhost ~]# wget -h
GNU Wget 1.14<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值