- 博客(3)
- 收藏
- 关注
原创 逆向百站,留个纪念
浑浑噩噩,今年过了一大半了!最近几月都在找各种网站做JS逆向练手,感觉该是入门了吧.再也不用看见JS加密就绕道走了.正逢中秋,留帖纪念.如有初学同道,也可以拿这些网站去练手玩玩.大部分都是些简单入门级逆向,纯属练个手熟....
2021-09-21 17:13:21
200
原创 通用爬虫-续
通用爬虫-续 上次想要用面向对象爬虫写成通用模板,其实还留了一部分工作未完成,今天把它补充完. 按标准的爬虫三步曲来进行充实下内容: 获取响应体:requests请求,get和post改个单词就完了,没什么好调整的,增加代理 解析数据:按我目前常用的三种静态解析bs4,css,xpath,加上json和正则,各列两行例句算是忘词时的提醒,最终都解析成字典流转到下一步去. 保存数据:调通保存到csv,xlsx,json,redis数据库的设置,附加一个带进度条的二进制下
2021-05-21 00:33:23
4940
原创 用面向对象写一个通用爬虫模板
面向对象的爬虫模板前言初衷实现先来一个最简单的爬虫类给简单的类加点参数重试的方法异常处理加上保存数据,完整的单线程爬虫提速爬取总结前言本文内容及代码仅供交流学习使用,如有不足之处,请多指点,如有用于恶意攻击网站等违法行为,请自行负责.初衷学习python爬虫有一段时间了.经常会想如果我有那么一个标准的轻量化模板,对于简单的网页,只要输入网址,我就可以得到网页源码.省那么一点点导库,设参,把主要精力放在解析提取数据上面,要是能把重试,错误日志,提高爬取速率等等也加上去,像scrapy一样用注释预设好,
2021-03-17 16:50:03
698
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人