
爬虫
文章平均质量分 53
rds.
代码需要沉淀。
展开
-
豆瓣排行榜1--get携带params作为url参数去请求
在requests库的get方法中,对url进行get请求的时候,有的时候发现网页上的url有许多奇奇怪怪的东西,比如https://movie.douban.com/typerank?type_name=%E7%88%B1%E6%83%85&type=13&interval_id=100:90&action=这个链接里,“?”之后的都是携带的参数,我们可以把这些参数放到params里去get,在get的过程中,就会自动去加到url里看下面这个例子:第二张图片中里大红框.原创 2022-01-13 20:27:50 · 826 阅读 · 0 评论 -
爬虫--百度翻译结果爬取--post方法学习笔记
打开百度翻译,打开开发者工具(F12)在找哪个包是自己想要找的包的时候,可以点开preview去预览一下看看代码:import requestsdef gethtml(url,data,headers): try: response = requests.post(url,data=data,headers=headers) print(response.json()) str = response.json()转载 2022-01-13 18:37:20 · 586 阅读 · 0 评论 -
实现一个自动搜狗搜索的小爬虫----user-agent反爬
今天迎来了第一个反爬今天实现了提供一个关键词键入,然后使用爬虫对这个关键词进行搜狗搜索,将搜索后的结果保存到文件中这里用到了一个小反爬,User-Agent反爬要让get请求携带headers,headers中放入User-Agent进行请求import requestsdef gethtml(url,headersdic): try: responses = requests.get(url,headers = headersdic) str原创 2022-01-13 17:05:35 · 769 阅读 · 0 评论 -
python爬虫_手刃一个小爬虫,学习笔记
上代码:from urllib.request import urlopendef get_html(url): try : resp = urlopen(url) str1 = resp.read().decode("utf-8") return str1 except : return "产生异常"def save_file(str1,fname): with open(fname,"w",encodi原创 2022-01-11 20:44:08 · 116 阅读 · 0 评论 -
js逆向_4常规加解密类型
解密步骤对于一个解密案例,我们的步骤是:抓包->调试->扣js->改写->本地运行出值->最后能请求服务器拿出值一些常见的加密方式加密方式有很多,千奇百怪,这里只介绍一点点。取盐校验md加密md5 md2 md4等16位 32位 40位不可逆,非对称。这些加密算法是一种摘要算法,就是把明文中的一些东西摘出来然后进行加密,是不可逆的。(最终也是16进制的)我们需要记住的是常见的,比如123456md5加密之后就是49ba59abbe56e057,这是16位原创 2021-09-15 18:43:19 · 640 阅读 · 0 评论 -
js逆向_3方法栈,跟值
方法栈上一节我们说到了一个网站代码运行的时间轴:加载html——加载js——js初始化——用户触发了某个事件——调用某段js——加密函数——向服务器发送信息(xhr的send)——接受服务器返回的数据——解密函数——刷新网页渲染举一个例子来说说方法栈找断点去断xhr send的请求:跟值我们将程序断在向服务器xhr发送阶段,是距离加密阶段比较近的。加密阶段再去细分:明文-加密函数-密文所以我们是可以找到加密函数的,甚至可以找到明文(如果方法执行后变量的值没有被更新改变,就有可能出现原创 2021-09-12 11:30:14 · 843 阅读 · 0 评论 -
js逆向_2断点的学习
js逆向的终极目的是什么?不就是将加密数据解密嘛。我们的目标就是,用网站的js代码,在本地也能进行加密解密,得到和浏览器一样的数据。在进行断点的学习之前有必要知道一下,网站的代码的运行时间轴:加载html——加载js——运行js初始化——用户触发了某个事件——调用了某段js——加密函数——给服务器发送信息(先创建XHR对象,再将XHR发send至服务器)——接收到服务器返回的数据——解密函数——刷新网页渲染从时间轴中我们看到了,我们需要通过断点去获得与服务器交互的数据断点:1.DOM断点这类断原创 2021-09-11 20:24:37 · 695 阅读 · 0 评论 -
python爬虫——入门
python爬虫入门前面的话0.1Robots协议解读0.2网络爬虫的约束0.3基本流程0.4三个流程的实现需要什么一、Requests库入门1.1 Requests库的get()方法1.2 爬取网页的通用代码框架1.3 HTTP协议及Requests库的主要方法1.3.1 HTTP协议1.3.2 Requests库的七个方法(1).request方法(2).对于**kwargs参数(控制访问参数,可选参数):1). params:字典或者字节序列,作为参数增加到url中2). data:字典、字节序列或文原创 2021-07-10 16:30:00 · 532 阅读 · 3 评论 -
python爬虫入门篇——正则表达式
python爬虫入门—正则表达式一、 正则表达式的概念二、 正则表达式的语法三、Re库的基本使用3.1 基本使用3.2 Re库的match对象3.3 Re库的贪婪匹配,最小匹配一、 正则表达式的概念二、 正则表达式的语法三、Re库的基本使用3.1 基本使用3.2 Re库的match对象3.3 Re库的贪婪匹配,最小匹配...原创 2021-07-13 09:27:16 · 493 阅读 · 2 评论 -
python爬虫——实战篇
python爬虫——实战篇python爬虫实战篇笔趣阁小说及其网址爬取待补充笔趣阁小说及其网址爬取爬取结果:txt文件,内容是 “小说名:网址”。步骤:1.右键,查看,network(网络),找到headers:User-agent伪装头2.点击这个红色同步点击框(最上面那个),然后点击一个小说标题元素3.查看标签目录4.编写爬虫程序import requestsfrom lxml import etreeurl = "https://www.xbiquge.la/"heade原创 2021-07-14 22:20:37 · 2421 阅读 · 11 评论 -
python爬虫-scrapy框架环境安装及其使用方法
首先是scrapy库的安装接着是scrapy工程创建,在下面的terminal中输入相应的指令进行scrapy工程的创建。scrapy scrapyproject '工程名称'在这个工程文件夹中,spiders中是放的爬虫文件的源码,setting文件是配置文件如果要执行一个工程就在terminal中输入scrapy crawl '爬虫工程名称'我们来看一个刚刚创建的爬虫源码文件内容import scrapyclass FirstSpiderExampleSpider(scrapy.S原创 2021-07-21 22:08:21 · 218 阅读 · 0 评论 -
js逆向_1——开发者工具
1.Element2.Network还有直接对包右键,可以进行一些操作,比如复制它的一些信息,或者直接在资源面板打开等等。3.Sources4.Application原创 2021-09-11 17:09:16 · 172 阅读 · 0 评论