网络数据采集-wget
网络数据采集-wget
wget下载页面
一次请求一个url
wget www.baidu.com
默认情况下,
(1)返回响应的response内容。
(2)以url最后的/后的内容作为文件名,如果/后没有内容文件名为index.html
一次请求多个url,并指定文件名
编写urls.txt,将要下载的url以及自定义的文件名写进去
baidu.html https://www.baidu.com/
sina.html https://news.sina.com.cn/
编写批量下载脚本
#!/bin/bash
# 用法: sh batch_download.sh < urls.txt
while read file_name file_url
do
wget -O ${file_name} -c ${file_url}
done < urls.txt
执行脚本
sh batch_download.sh
wget命令行选项
- -O 指定下载内容文件名
wget -O baidu1.html www.baidu.com
- -o 指定一个日志文件
wget -O baidu1.html www.baidu.com -o baidu.log.txt
- -t 下载中断,尝试重新下载的最大次数
-t 0 表示尝试无限次,直到下载成功
wget -O baidu1.html www.baidu.com -o baidu.log.txt -t 3
- –limit-rate 限定下载任务所能占用的最大带宽,就是限制下载速度(单位 kb/s或 m/s)
wget -O baidu1.html www.baidu.com -o baidu.log.txt -t 3 --limit-rate 3k
- -c 从断点开始继续下载
wget -c https://dl.fbaipublicfiles.com/fasttext/vectors-english/wiki-news-300d-1M.vec.zip -t 3
- –mirror 复制整个网站(镜像)
wget --mirror --convert-links exampledomain.com