简单的网页下载方法

 

可以使用下面的命令 wget -r -p -k -np http://hi.baidu.com/phps ,


-r 表示递归下载,会下载所有的链接。
不过要注意的是,不要单独使用这个参数,因为如果你要下载的网站也有别的网站的链接。
wget也会把别的网站的东西下载下来,由于互联网的特性,很有可能你会把整个互联网下载下来,
所以要加上 -np这个参数,表示不下载别的站点的链接.
-k表示将下载的网页里的链接修改为本地链接.
-p获得所以显示网页所需的元素,比如图片什么的.

 

另外还有其他的一些参数可以使用:

 

-c表示断点续传

-t 100表示重试100次,-t 0表示无穷次重试

另外可以将要下载的url写到一个文件中,每个url一行,使用这样的命令 wget -i download.txt.

 

--reject=avi,rmvb 表示不下载avi,rmvb的文件,--accept=jpg,jpeg,表示只下载jpg,jpeg的文件.

可以在用户目录下建立一个.wgetrc的文件(windows里面好像不能直接建立这样的文件,windows会认为没有文件名--),里面写上 http-proxy = 123.456.78.9:80,然后在加上参数 --proxy=on,如果需要密码,再加上下面的参数 --proxy-user=username, --proxy-passwd=password


现在不少网站变聪明了,比如说 http://www.w3schools.com/html/default.asp 再也不能用很多人常用的:

 

wget -r -p -np -k -l inf

下载整个网站了。
其中有一个很重要的原因是因为Wget设置的User-Agent,比如我的wget 1.10.2

HTTP_USER_AGENT=Wget/1.10.2

 

其中wget版本不同,"/"后的数字也对应改变。
不少网站都是根据这个过滤掉wget的请求的。


知道了这个对付就简单了,加个 -U USER-AGENT就行了,比如我的K-Meleon的默认User-Agent:

 

Mozilla/5.0 (Windows; U; Windows NT 5.2; en-US; rv:1.7.13) Gecko/20050610 K-Meleon/0.9

或者XP下的IE6:

Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)

还是Opera什么的:

Opera/7.54 (Windows NT 5.1; U) [en]

 

这样就可以下载了:

wget -r -p -np -k -l inf /  -U "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" /  http://www.w3schools.com/html/default.asp

当然也可以调整一下参数:

wget -N -r -l inf --no-remove-listing -k -p -np /  -U "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" /  http://www.w3schools.com/html/default.asp

或者简写成

wget -m -k -p -np -U "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" /  http://www.w3schools.com/html/default.asp

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值