网络数据采集-wget

最新推荐文章于 2025-08-05 15:46:16 发布

笨笨的企鹅

最新推荐文章于 2025-08-05 15:46:16 发布

阅读量482

点赞数

CC 4.0 BY-SA版权

分类专栏： spider 文章标签： bash 开发语言

3 篇文章

订阅专栏

一次请求一个url

wget www.baidu.com

默认情况下，
（1）返回响应的response内容。
（2）以url最后的/后的内容作为文件名，如果/后没有内容文件名为index.html

一次请求多个url，并指定文件名

编写urls.txt，将要下载的url以及自定义的文件名写进去

baidu.html https://www.baidu.com/
sina.html https://news.sina.com.cn/

编写批量下载脚本

#!/bin/bash
# 用法： sh batch_download.sh < urls.txt

while read file_name file_url
do
        wget -O ${file_name} -c ${file_url}
done < urls.txt

执行脚本

sh batch_download.sh

wget -O baidu1.html www.baidu.com

wget -O baidu1.html www.baidu.com -o baidu.log.txt

-t 0 表示尝试无限次，直到下载成功

wget -O baidu1.html www.baidu.com -o baidu.log.txt -t 3

wget -O baidu1.html www.baidu.com -o baidu.log.txt -t 3 --limit-rate 3k

wget  -c https://dl.fbaipublicfiles.com/fasttext/vectors-english/wiki-news-300d-1M.vec.zip -t 3

wget --mirror --convert-links exampledomain.com