datuan0188-优快云博客

转载记换换回收一个js逆向分析

随着现在对数据的重视程度越来越高，现在各大网站都加强了反爬技术，比如本文中js加密url地址：https://www.huanhuanhuishou.com/gujia/22201.html需要爬取的数据是最高的回收价格：14760经过分析这个数据是ajax发送请求getEvaluateData?goods_id=22201 goods_id是商品的id GET请求...

2019-04-23 11:54:00 261

转载 mitmproxy 在windows上的使用

mitmproxy 是一个中间件代理，结合python使用安装 pip install mitmproxy在windows上没有mitmproxy 所以只要用mitmdump和mitmwdb初次使用的时候要去mitm.it 安装对应系统的证书如果在windows上的谷歌浏览器访问https的连接，需要先把谷歌浏览器关闭，然后--proxy-server=127...

2019-01-25 10:35:00 956

转载 elasticsearch_dsl 的nested

在工作中会碰到这样的一个需求，mapping中定义的类型是nested{ "judgement":{ "mappings":{ "content":{ "_all":{ "enabled":false }, ...

2019-01-16 10:57:00 586

转载利用谷歌插件破解今日头条的新闻ajax参数加密，新手都能懂

最近在学习谷歌插件，想找个项目练练手，就拿今日头条开刀首先访问地址是：https://www.toutiao.com/c/user/50025817786/#mid=50044041847通过抓包发现ajax请求数据的所需要的参数如下图：其中page_type 可以认为是固定的，user_id 可以用页面中提取，count 固定为20，as，cp，_signature是加...

2019-01-09 17:50:00 431

转载 aiohttp爬虫的模板，类的形式

1 import asyncio 2 import aiohttp 3 import async_timeout 4 from lxml import html 5 from timeit import default_timer as timer 6 7 from db import DBData 8 9 10 cl...

2018-12-25 10:29:00 166

转载 aiohttp的模板

1 import aiohttp 2 import asyncio 3 import async_timeout 4 from urllib.parse import urljoin,urldefrag 5 6 root_url = 'http://python/org/' # 开始的url 7 crawled_urls,url_hub = [], ...

2018-12-25 10:08:00 168

转载 python从Excel中提取邮箱

从各个城市的律师协会去爬取的律师的招聘信息，可是邮箱在招聘简介里面，所有需要写个脚本去提取邮箱import pandas as pdimport reregex = r"([-_a-zA-Z0-9\.]{0,64}@([-\w]{1,63}\.)*[-a-zA-Z0-9-.]{1,63})"regex_1 = r"([a-zA-Z0-9_.+-]+@[a-pr...

2018-11-28 14:13:00 306

转载爬虫的日志，只存7天的日志

如果爬虫在服务器中持续运行，那么日志都会写入到一个文件中，这样不方便管理日志custom_settings = { 'DEFAULT_REQUEST_HEADERS': { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) Ap...

2018-10-20 11:34:00 218

转载 Scrapy-Redis 空跑问题，redis_key链接跑完后，自动关闭爬虫

首先解决爬虫等待，不被关闭的问题：1、scrapy内部的信号系统会在爬虫耗尽内部队列中的request时，就会触发spider_idle信号。2、爬虫的信号管理器收到spider_idle信号后，将调用注册spider_idle信号的处理器进行处理。3、当该信号的所有处理器(handler)被调用后，如果spider仍然保持空闲状态，引擎将会关闭该spider。scra...

2018-10-20 10:53:00 333

转载 Python 资源大全中文版

# Python 资源大全中文版我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列的资源整理。[awesome-python](https://github.com/vinta/awesome-python) 是 vinta 发起维护的 Python 资源列表，内容包括：Web 框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处...

2018-10-19 11:41:00 1910

转载多进程的妙用

1 #coding:utf-8 2 import time 3 import threading 4 from html_downLoader import HtmlDownLoader 5 import ParseAlexa 6 import multiprocessing 7 from MongoQueue import MongoQueue 8 i...

2018-10-19 10:49:00 127

转载利用谷歌浏览器断点调试js反向解析，解密

目标网站：https://www.aqistudy.cn/html/city_detail.html点击按钮才会去后台请求数据，第一步：将click打开，第二步：找个后台请求数据的url https://www.aqistudy.cn/apinew/aqistudyapi.php第三步：断点调试，找到找到加密和解密的文件 1 functio...

2018-09-28 11:12:00 1604

转载 requests+mongodb爬取今日头条，多进程

1 import json 2 import os 3 from urllib.parse import urlencode 4 import pymongo 5 import requests 6 from bs4 import BeautifulSoup 7 from requests.exceptions import Connectio...

2018-09-27 17:19:00 181

转载 seleniun 爬取淘宝网

1 import re 2 from selenium import webdriver 3 from selenium.common.exceptions import TimeoutException 4 from selenium.webdriver.common.by import By 5 from selenium.webdriver.supp...

2018-09-27 16:48:00 192

转载 fake_useragent 封装好user-agent的模块

from fake_useragent import UserAgentuseragent = UserAgent()print(useragent.random)转载于:https://www.cnblogs.com/zhongshuiping/p/9621711.html

2018-09-10 18:32:00 396

转载决策树

决策树的一些优点：易于理解和解释。数可以可视化。几乎不需要数据预处理。其他方法经常需要数据标准化，创建虚拟变量和删除缺失值。决策树还不支持缺失值。使用树的花费（例如预测数据）是训练数据点(data points)数量的对数。可以同时处理数值变量和分类变量。其他方法大都适用于分析一种变量的集合。可以处理多值输出变量问题。使用白盒模型。如果一个情况被观察到，使用逻...

2018-06-11 14:17:00 207

转载 flask数据库的迁移

如果是单纯的用flask去启动app.run()是没有办法想django那样对数据库进行迁移的首先要安装pip install flask-migrate然后修改代码，改变flask的启动方式from flask_migrate import Migrate,MigrateCommandfrom flask_script import Shell,Mana...

2018-03-30 14:56:00 123

转载 flask的查询，一对多，多对多

模型的关联：一对多class Role(db.Model): us = db.relationship('User',backref='role',lazy='dynamic')class User(db.Model): role_id = db.Column(db.Integer,db.ForeignKey('roles.id'))...

2018-03-27 09:44:00 247

转载 django的验证码

pip install Pillow==3.4.1在views.py中创建一个视图函数from PIL import Image, ImageDraw, ImageFontfrom django.utils.six import BytesIO...def verify_code(request): #引入随机函数模块 import random...

2018-03-25 17:06:00 144

转载 django模板的变量，标签，过滤器和自定义过滤器，注释

模板的作用是计算并输出：{{ 变量}}当模版引擎遇到点如book.title，会按照下列顺序解析：1.字典book['title']2.先属性后方法，将book当作对象，查找属性title，如果没有再查找方法title()3.如果是格式为book.0则解析为列表book[0]{% 代码段 %}{% for item in list%}循环的逻辑...

2018-03-25 17:01:00 146

转载 cookie和session

http的请求是一词无状态的连接，例如你访问index页面的请求和访问user页面的请求是没有数据保存和传递，所以一个网站的所有人的购物车或者用户的页面都是一样的，这个时候请求状态的保持就显的很重要，所有就有了cookie和session，cookie只要是用来保存一些安全的数据，比如用户名等等，对于一些不安全的数据，比如密码就需要保存在服务器的session中，在djang...

2018-03-25 16:43:00 87

转载 django的HttpResponse对象

服务器接收到http协议的请求后，会根据报文创建HttpRequest对象，这个对象不需要我们创建，直接使用服务器构造好的对象就可以。视图的第一个参数必须是HttpRequest对象，在django.http模块中定义了HttpRequest对象的API属性下面除非特别说明，属性都是只读的。path：一个字符串，表示请求的页面的完整路径，不包含域名和参数部分。...

2018-03-25 16:32:00 210

转载 django视图

视图的功能：负责接收Web请求HttpRequest，进行逻辑处理，返回响应HttpResponse给请求者在创建好自己的应用之后，在应用下的views.py中定义视图在视图中编写代码的方式只要有二种，cbv和fbv，cbv是django官方推荐的，他更加的体现了面向对象的思想，这里只要是介绍fbv的写法在view.py中定义视图def index(request...

2018-03-25 16:24:00 79

转载模型类关系

关系型数据库的关系包括三种类型：ForeignKey：一对多，将字段定义在多的一端中。ManyToManyField：多对多，将字段定义在任意一端中。OneToOneField：一对一，将字段定义在任意一端中。可以维护递归的关联关系，使用'self'指定，详见"自关联"。关联查询通过对象执行的关联查询一对多的访问语法：一对应的模型对象.多对应的模型类的...

2018-03-24 20:26:00 169

转载 django的查询集

查询集表示从数据库中获取的对象集合，在管理器上调用某些过滤器方法会返回查询集，查询集可以含有零个、一个或多个过滤器。过滤器基于所给的参数限制查询的结果，从Sql的角度，查询集和select语句等价，过滤器像where和limit子句。模型管理器的方法返回查询集的方法如下all()：返回所有数据。filter()：返回满足条件的数据。exclude()：返回满足条件之外...

2018-03-24 20:16:00 95

转载 django模型的字段查询

条件运算符exact: 查判等list=BookInfo.objects.filter(id__exact=1)可简写为：list=BookInfo.objects.filter(id=1)模糊查询：是否包含 containslist = BookInfo.objects.filter(btitle__contains='传')starts...

2018-03-24 20:09:00 164

转载 django的模型和基本的脚本命令

python manage.py startproject project_name 创建一个django项目python manage.py startapp app_name 创建一个app的应用python manage.py makemigrations (app_name) 如果不加app_name 就会把整个django的文件都迁移python manage....

2018-03-24 20:00:00 201

转载 flask的自定义过滤器

过滤器的本质是函数。当模板内置的过滤器不能满足需求，可以自定义过滤器。自定义过滤器有两种实现方式：一种是通过Flask应用对象的add_template_filter方法通过装饰器来实现自定义过滤器重要：自定义的过滤器名称如果和内置的过滤器重名，会覆盖内置的过滤器。方式一def do_filterdoublesort(ls): #自定义一个方法 ...

2018-03-24 19:49:00 143

转载 flask过滤器

过滤器的本质就是函数。有时候我们不仅仅只是需要输出变量的值，我们还需要修改变量的显示，甚至格式化、运算等等，而在模板中是不能直接调用 Python 中的某些方法，那么这就用到了过滤器。过滤器的使用方式为：变量名 | 过滤器。{{ var | reverse}} 对var进行反转jinja2的模板语言是支持链式调用的，比如{{ "hello world" | ...

2018-03-24 19:39:00 273

转载 flask的模板

flask用的是jinja2的模板模板其实是一个包含响应文本的文件，其中用占位符(变量)表示动态部分，告诉模板引擎其具体的值需要从使用的数据中获取使用真实值替换变量，再返回最终得到的字符串，这个过程称为“渲染”Flask是使用Jinja2这个模板引擎来渲染模板使用模板的好处：视图函数只负责业务逻辑和数据处理(业务逻辑方面)而模板则取到视图函数的数据...

2018-03-24 19:29:00 81

转载 flask钩子

请求钩子从请求到响应的过程中，设置了一些方法来实现某些功能before_first_request 在处理第一个请求前运行before_request 在每次请求前运行after_request 在每次请求后运行teardown_request 有未处理的异常的时候抛出@app.before_requestdef first():...

2018-03-24 19:13:00 167

datuan0188的博客