网络数据采集-wget

网络数据采集-wget

wget下载页面

一次请求一个url

wget www.baidu.com 

默认情况下,
(1)返回响应的response内容。
(2)以url最后的/后的内容作为文件名,如果/后没有内容文件名为index.html

一次请求多个url,并指定文件名

编写urls.txt,将要下载的url以及自定义的文件名写进去

baidu.html https://www.baidu.com/
sina.html https://news.sina.com.cn/

编写批量下载脚本

#!/bin/bash
# 用法: sh batch_download.sh < urls.txt

while read file_name file_url
do
        wget -O ${file_name} -c ${file_url}
done < urls.txt

执行脚本

sh batch_download.sh

wget命令行选项

  • -O 指定下载内容文件名
wget -O baidu1.html www.baidu.com
  • -o 指定一个日志文件
wget -O baidu1.html www.baidu.com -o baidu.log.txt
  • -t 下载中断,尝试重新下载的最大次数

-t 0 表示尝试无限次,直到下载成功

wget -O baidu1.html www.baidu.com -o baidu.log.txt -t 3
  • –limit-rate 限定下载任务所能占用的最大带宽,就是限制下载速度(单位 kb/s或 m/s)
wget -O baidu1.html www.baidu.com -o baidu.log.txt -t 3 --limit-rate 3k
  • -c 从断点开始继续下载
wget  -c https://dl.fbaipublicfiles.com/fasttext/vectors-english/wiki-news-300d-1M.vec.zip -t 3
  • –mirror 复制整个网站(镜像)
wget --mirror --convert-links exampledomain.com
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值