
爬虫笔记
嘻嘻嘻_哈哈哈
一切都是最好的安排
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
linux中用一条命令搞定网站图片下载
linux中用一条命令搞定网站图片下载curl https://www.xiachufang.com/category/40076/ |grep -oP 'data-src=(.*?).jpg'|cut -d '"' -f2 |xargs -i curl {} -O原创 2020-04-21 02:49:35 · 1635 阅读 · 0 评论 -
python爬虫---之---selenium使用cookie免登录(qq邮箱免密登陆)
像QQ邮箱这种情况,需要登入网页才能在取该网页或者使用selenium控制某个元素,这个时候我们就需要进行网页登入。但是,很多网页都会有验证码等一些干扰因素,这样就增加了我们自动登入的难度,这个时候,使用 cookie 登入网页就能很好的解决这个问题前提准备环境PythonSeleniumFirefox geckodriver 下载地址:https://github.com/m...原创 2020-04-19 03:48:15 · 4027 阅读 · 0 评论 -
爬虫---之---curl命令使用
使用curl命令得到外网IP地址,并自定义命令curl http://httpbin.org/getcurl -s http://httpbin.org/get |grep origin |cut -d '"' -f4alias myip="curl -s http://httpbin.org/get |grep origin |cut -d '\"' -f4"myip...原创 2020-04-18 04:19:30 · 1108 阅读 · 0 评论 -
爬虫---之---httpie使用
安装pip3 install HTTPiehttp http://httpbin.org/get原创 2020-04-18 04:19:05 · 227 阅读 · 0 评论 -
爬虫---之---wget使用
wget下载命令wget --limit-rate=200k -bc https://xiazai.xqishu.com/txt/鬼吹灯.txtlimit-rate=200k 下载速度-b 后台下载-c 断点续传-U “Windows IE 10.0” 指定User-Agent–mirror 镜像某个网站-p 下载页面中的所有相关资源-r 递归下载网页所有链接...原创 2020-04-18 04:18:16 · 453 阅读 · 0 评论