夜逍尘-优快云博客

原创爬取工商银行的休闲食品

目标：使用多线程的方式爬取工商银行的休闲食品存入MonGoDB数据库

2021-05-14 11:41:58 271 1

原创深度解析 steam密码js逆向（篇幅很长）

目标：破解steam密码js加密

2021-05-12 23:00:14 9259 6

原创爬取《宝可梦剑盾》资讯并存储到mongodb

目标：爬取百度宝可梦资讯的标题和详情页

2021-05-10 13:37:54 781 3

原创 js技巧（4）

1.js逆向过程中常常会出现js混淆我们需要使用反混淆的工具这是js混淆后的代码上面是反混淆的工具使用返回了一个数据接口这个才是真的js数据2.SessionId出现这个字眼就是说cookie的值3.如果一个函数没有需要转跳那么直接复制全部尽量还原原代码...

2021-05-28 14:20:17 206

一、豌豆httpimport requeststargetUrl = "http://myip.ipip.net"api_url = 'api的网址'a = requests.get(api_url).texthttpProxyServer = str(a).strip()print(httpProxyServer)proxies = { "http": 'http://{}'.format(httpProxyServer), "https": 'http://{}'.

2021-05-27 21:58:36 1903

原创 seleium优选

在seleium里定位复杂的话可以用两种定位方式1.css_selector使用方法：根据路径来定位driver.find_element_by_css_selector('.p-name em')class属性用.id属性用#2.xpath同样是这个路径li.find_element_by_xpath('//div[@class="p-name"]/em').text...

2021-05-24 22:05:05 194

原创数据分析matplotlib模块（牛刀小试）

加载模块from matplotlib import pyplot as plt创建画布plt.figure(figsize=(6, 4), dpi=100)figsize可以控制长宽dpi可以控制画布大小输入数据week = [1,2,3,4,5,6,7]n = [33,2,52,61,2,1,48]plt.plot(week,n)plt.plot()可以将两个数据合并一个数据是序列一个数据是值输出画布plt.show()...

2021-05-21 15:57:03 137

原创 js技巧（3）

js逆向中的RSA加密的话需要一个公钥来加密2.如果钥匙的地方或者加密的地方在一个函数内那么把函数内的数据都取出来3.RSA需要获取公钥来进行加密加密的过程中有需要公钥function text(pwd) {var e = new JSEncrypt();var k = "MIGfMA0GCSqGSIb3DQEBAQUAA4GNADCBiQKBgQCjfeE0MIYsZes / HwV06 / kvRw34Hmhn9WPt0feLPp1PVqdqZz1 / xFvPPEAJ / lAvfqt5

2021-05-17 10:08:55 172

原创 js技巧（2）

如果需要解密的地方很难进行搜索但是有特殊符号可以使用特殊符号进行搜索m: eb6c7c80779809148403384e8210c20d丨1620805157中间有一个特殊符号| 可以让他进行搜索2. requests如果在代码后面删掉就可以了3. base64伪加密一般会是英文大写和小写4.5....

2021-05-14 15:19:08 124

原创多线程中子线程正确传输

import pymongoimport threadingimport queueclient = pymongo.MongoClient(host='127.0.0.1', port=27017)db = client['xiaoye']['jf']class Producer(threading.Thread): def __init__(self, data_queue, *args,**kwargs): super(Producer, self).__i

2021-05-14 10:52:02 144

原创 js技巧(1)

设置函数第二行代码为断点就可以看到函数的参数函数里参数里如果是len 那调用函数是他的实参是数量比如：function _rds(len) { var retStr = ''; for (i = 0; i < len; i++) { retStr += $_chars.charAt(Math.floor(Math.random() * _chars_len)); } return retStr;}调用_rds(64)函数就去除64位的随.

2021-05-11 12:03:47 141

原创爬取微博搜索关键字标题

目标：爬取微博文章搜索标题步骤：1.加载模块2.设置爬虫参数3.爬取并清洗

2021-04-22 13:40:22 879

原创爬取今日头条搜索标题

# 加载模块import requestsfrom fake_useragent import UserAgentimport timeclass Sousuo(): def __init__(self, i, p): # 设置爬虫参数 self.url = 'https://www.toutiao.com/api/search/content/' # 传入url self.headers = { # 设置headers

2021-04-21 18:05:39 39560 5

原创 js字符串方法

创建字符串创建字符串也有两种第一种直接赋值var a = "123"第二种新建字符串方法var a = new String('value')第二种括号内可以放入值方法concatconcat：拼接var a = 'w';var b = 'd';var c = a.concat(b);console.log(c)输出结果为 wdindexofindexof：查找对应值的下标var a = 'wdawdwa';var b = a.indexOf('w',2) //第

2021-04-21 10:06:54 158

原创 js数组对象

1.创建数组第一种：直接写数组然后赋值var a = [1,2,3]第二种：用方法var a = new Array()第二种在new Array()的括号中只有一个参数的时候，这个参数的作用是长度在new Array()的括号中传入多个参数这是参数的作用是数组内的数据数组的方法1.concat（）concat是合并的作用var a = [1,2]var b = [3,4]var c = a.concat(b)console.log(c)2.push（）push：在

2021-04-20 14:43:12 458

原创 js this方法

this谁调用this this就会指向谁看代码 f 调用了fn fn里的函数有this this指向最终调用的对象作用域的a，在f作用域里有a : 小白，而最终调用this是b b的作用域是全局全局里有一开始赋值的a 所以最终结果是小黑而不是小白var a = '小黑';var f = { a:'小白', fn:function(){ console.log(this.a); }}var b = f.fn;b();在上面我们可以看到在最终调用的是b而b是属于全局作用域而

2021-04-20 11:41:43 106

原创爬取百度搜索标题

目标：爬取百度搜索标题的前五页搜索到的标题（广告也算）

2021-04-19 11:14:41 1166 12

原创 js对象

this关键字谁调用它它就输出谁如果没有对象那么就输出windowvar s = { 'wowo':this, }console.log(s)new创建新的对象可以进行特殊操作var rr = new Object()rr.name = 'cxy'console.log(news)如果是正常对象的话只能字典模式但是new可以直接使用rr.name = 'cxy’来进行添加...

2021-04-06 13:02:56 87

原创 js函数

自定义函数functionfunction aa(){ console.log('wws') }调用函数function aa(){ console.log('wws') }aa()在字典中调用函数并输出字典function aa(){ console.log('wws') }var s = { 'tuzi': aa()}conself.log(s.tuzi)调用函数是要加上括号...

2021-04-06 12:46:09 259

原创 scrapy集合mongo进行多条数据采集

一、爬虫文件import scrapyimport sysclass MgcsSpider(scrapy.Spider): name = 'mgcs' allowed_domains = ['meituan.com'] start_urls = ['https://i.waimai.meituan.com/openh5/homepage/poilist?'] sz =0 def parse(self, response): cookies =

2021-04-05 16:44:18 292

原创在scrapy中params无处安放？？？

在scrapy中post请求并没有params这一项但是可以放入data一起递给formdata例子：url = 'https://i.waimai.meituan.com/openh5/homepage/poilist?_=1617599276031&X-FOR-WITH=aOz9oQArI5qgENaNLqbZUsSueNStDs68OwuGdAWGQL872kDC5t6e3g89MWKANAKICAVATGoJcrGz0lf9H74EEtfCzyWAXetZ1HNpfOjg95T4ZvhQ

2021-04-05 14:05:34 1404 1

原创在scrapy里使用cookie获取美团外卖的数据

获取网页网址的数据接口的cookie

2021-04-02 17:40:49 3381 2

原创在scrapy集合selenium模拟登陆获取cookie

from fake_useragent import UserAgentfrom selenium import webdriverfrom scrapy.http.response.html import HtmlResponseimport timeclass seleniumMiddleware: driver = webdriver.Chrome() def process_request(self, request, spider): self.dr

2021-04-02 17:14:27 394 6

原创 js对话框

对话框1.定义对话框函数function comfirm_fun(){ }<body><button type="button" onclick="comfirm_fun()">出售装备</button>2.在函数里面添加选择确认或取消的的按钮function comfirm_fun(){ var rs = confirm('请确认是否出售装备'); }<body> <button type="button" oncli

2021-04-02 16:25:29 196

原创 js循环

数字计算：var sum=0;for(var a=1;a<=10000;a++){ console.log(a); console.log(a++); sum = sum+a;}console.log(sum)a++:递增每次循环后再加1遍历数组（列表）var a = ['1','2','3']for(var i=0;a.length;i++){ console.log(a[i])}通过获取数组的长度来进行下标递增获取数组里的每个数据...

2021-04-02 13:59:19 396

原创 js条件判断

条件判断不能重复只能让一个条件满足如：var age = 30if(age>=18){;}else if(age>=0){;}这样就都会被满足所以我们一般使用&&进行修改条件如：var age = 30if(age>=18){;}else if(18>age && age>=0){;}这样在age大于18时只会被满足一条就是age>=18练习：var sg=parseFloat(prompt(('请输入你的身高'

2021-04-01 13:48:15 375

原创 session心得

一.手机号验证码使用手机号进行正常登入，登录后搜索手机号的验证码进行搜索我们的验证码是4474那么就搜索4474 搜索后发现有一条数据接口那这个数据接口就是我们session登录的路径了在然后携带参数登入import requestsfrom lxml import etreesession = requests.session()# 目标urlurl = 'https://accounts.douban.com/j/mobile/login/verify_phone_code'y

2021-03-31 15:45:16 323

原创 pymongo

pymongo序：启动import pymongoclient = pymongo.MongoClient(host='127.0.0.1', port=27017)db = client['xiaoye']['biao']xiaoye：数据库名biao：表名（集合名）db：可进行指定位置操作的变量（如：db = client[‘xiaoye’][‘biao’] 指定的位置是xiaoye数据库里的biao表）pymongo新增新增多条数据：db.insert_many([{'fangz

2021-03-30 14:18:23 420

原创代理ip

1.不要适用seleium2.获取代理ip时一定要注意协议如：http的网址就用http的代理ip，https的网址就要https的代理ip3.注意整理ip信息时协议要使用大写HTTP4.在使用requests后再加上requests.adapters.DEFAULT_RETRIES = 55.ip的格式是字典而且只能传一个可以获取ip后使用遍历...

2021-03-23 10:01:21 180

原创关于爬虫报错：requests.exceptions.ProxyError（最正确的办法）

你的代理ip输入的是小写的http或者https而不是大写的如：{’HTTP‘：’117.94.236.124:4257‘} 这样才行

2021-03-17 22:18:27 1112 4

原创 scrapy-redis

步骤一正常使用scrapy爬取数据步骤二修改爬虫文件1.加载模块from scrapy_redis.spiders import RedisSpider2.继承模块的类class DangdangSpider(RedisSpider):3.start_urls替换redis_key（redis_key里面输入py名）# start_urls = ['http://book.dangdang.com']redis_key = 'dangdang'修改settings1.放入参数

2021-03-11 17:21:42 120

原创爬虫知识储备（2）

1.xpath中的./和.//的关系在每个div[@class=“level_one”]中都会有dl和div[@class=“con”]div[@class=“con”]下面也有dl如果写xpath时使用的是.//dl[1]/dt[1]//text()那么获取来的数据就会是第一个dl里匹配到的数据特色书单以及在div[@class=“con”]下面的dl里也会匹配到童书的文本在这里我们看出来 .//会把所有符合匹配要求的全部取出来而./却不一样他只会把第一个dl里匹配到的数据特色书单

2021-03-11 15:29:38 248

原创爬虫知识储备（1）

知识存储1.数据接口中的data数据处理我们可以看出来这不是一个简单数据而是像json一样一节一节的我们平时处理data带入post参数都是data = { 'startIndex': '1', 'sortId': '0', 'multiFilterIds': '', }但是出现{channelCode: [“fixed_disc”], pageSize: 30, pageNum: 1, stock: []}这种情况我们就的使用这种方法了data = '{"channelC

2021-02-26 15:03:56 416

原创 selenium

selenium的显示等待与隐示等待1.显示等待WebDriverWait(driver, 1000).until(EC.url_contains(www.baidu.com)) # 等待网页加载成功后就取消多余的等待时间WebDriverWait(driver,100).until(EC.presence_of_all_elements_located((By.ID, 'kw')))# 等待网页标签加载成功（若是网页标签在网页下面或看不见的地方会报错）# 显示等待的坐标必须使用By.**

2021-02-22 22:02:52 152

原创报错

报错库存1.http.client.RemoteDisconnected: Remote end closed connection without responseua出错使用fake_useragent

2021-02-08 08:24:55 247

原创爬虫思维导图

2021-02-05 16:52:56 846

原创使用scrapy集成selenium爬取简书专题全部内容

1.载入selenium对应的模块以及time模块2.使用selenium登入简书url3.等待显示更多刷新出来4.重复点击显示更多15.获取全部专题内容并结束普通的click（）点击不了显示更多因为显示更多在页面的下面还在隐藏着需要滑动页面才能找到这里我们使用execute_script 可以直接点击不需要滑动页面 ↩︎...

2021-02-04 16:45:10 207

原创 middlewares中间件设置

middlewares 中间件里设置ua伪装1.使用fake_useragent模块2.在middlewares里设置新的中间件3.在新的中间件里重置process_request函数4.在process_request函数里使用fake_useragent模块5.在settings开启之前新的中间件middlewares 中间件里设置ip1.在豌豆http网站里获取IPjson格式2.复制api网址并复制里面的内容3.创建新的中间件并重置process_request函数4.

2021-02-04 15:15:10 932

原创 scrapy模拟登入

使用scrapy模拟登入第一种方法从数据接口获取cookie重新定义一个start_requests函数把cookie整理成字典格式传入模拟登入代码的cookies参数里第二种方法以post形式去登入1.查看网页登入失败后网页是否从login变成session --是2.获取session数据接口里的data3.查看data里是否有变数 --有4.去网页中获取data里的变数（数据结构是固定的一会就被会换，而网页直接请求无论怎么变都可以）5.使用formrequest方法

2021-02-03 15:00:14 276

原创学习爬虫

2020-12-31 16:31:42 248

WT-JS 1.8.3.zip

谷歌扩展程序xpath.rar

FontCreator.rar

空空如也