小脏辫儿-优快云博客

出现中文编码乱码的情景1.服务后端返回值出现中文乱码，或者必须json解码后才能展示这是因为json.dumps 序列化时对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=False处理方式@api.route("/route", methods=['GET'])def ***(): pass resu = {'status':stauts,'info':info} return json.dumps(resu, ensure_ascii=False)2.

2021-05-24 16:24:24 187

原创数据挖掘（一）数据挖掘的发展及算法简介

写这个博客主要是为了增强自身的理解和记忆，个人见解颇多，欢迎指正，欢迎讨论。大数据时代的数据挖掘信息时代的发展，信息的爆发性增长，衍生了我们目前的“大数据时代”，整个社会全员大数据，提供了很多工作机会，尤其是对我们这些从事爬虫工作的人员，在爬虫工作形式日益严峻的前提下，愈发厌倦了和反爬人员的撕逼大战，站在道德高点上砍瓜切菜，对我们这些靠技术混口饭吃的码农们，产生了刀刀大动脉的暴击，一方面是技术...

2019-11-10 22:03:11 1138

原创 python爬虫js逆向

js逆向要想是想，要非常熟悉web的运行流程，针对不同网站，有不同的思路，这个博客是针对人人直播的一个爬取，先直接上代码，然后在讲解，import requestsimport js2pyimport jsonheaders = { "User-Agent":"Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) Apple...

2019-09-22 11:20:05 1120

原创 scrapy实现分布式

scrapy实现分布式其实主要是需要redis的队列来实现，想做这个，建议先了解下redis的基础形式我的上篇博客说过，spider的基础流程而，分布式其实就是将spider获取的url包装成requests，发送给调度器scheduler的时候，使用redis的队列进行分发，分发给多个单机爬虫调度器，同时将存储的结构化数据保存到redis继承自父类为RedisSpider2.增加了一...

2019-09-22 10:39:15 741

原创 scrapy框架

首先我们先了解下scrapy的基本知识，scrapy框架的作用：通过少量代码实现快速抓取1.简单爬虫的基本流程：或者是这样而scarpy的流程是另一种模式1.调度器把requests–>引擎–>下载中间件—>下载器2.下载器发送请求，获取响应---->下载中间件---->引擎—>爬虫中间件—>爬虫3.爬虫提取url地址，组装成reques...

2019-09-22 10:16:17 152

原创爬虫登陆问题，selenium截取图片验证码

获取登陆验证码，需要了解前端的基本构造，css的模块尺寸中间件，需要自己补足一下前端的基本知识能力上代码#!/usr/bin/python3# -*- coding: utf-8 -*-from selenium import webdriverfrom PIL import Image# import pytesseractimport timefrom io import ...

2019-09-21 11:16:37 563

原创爬虫处理iframe的方法

iframe是前端内嵌页面，访问域名与主网页不同，requests请求无法获取，技术可以的话，可以从解析js抓取iframe域名，要技术过硬啊，需要的参数很多以后再说上代码#!/usr/bin/python3# -*- coding: utf-8 -*-from selenium import webdriverbrowser = webdriver.Chrome('./chrom...

2019-09-21 11:01:59 11227 2

原创 seliunm的基本使用

这篇写一个selenium简单爬虫，至于安装什么的，直接下，网上有不少资源，chromedriver的下载，主要写一个基本的写法1.模拟浏览器2.获取爬虫的url，模拟浏览器3.模拟浏览器，点击切换页面，4获取内容，写成item保存5.文本写入# !/usr/bin/python3# -*- coding: utf-8 -*-import csvimport jsonimpor...

2019-09-21 10:47:56 999 1

原创百度贴吧爬虫

爬虫基本格式上篇有了，这篇记录图片的爬取，同样没啥技术点，上代码import requestsfrom lxml import etreefrom pprint import pprintclass TiebaSpider(object): def __init__(self): self.kw = "魔兽世界" self.base_url = ...

2019-09-21 10:07:08 258

原创起点爬虫爬取全部书籍

起点的爬虫没有什么特殊的难点，就以基本的爬虫步骤简单的看一下，不说上代码// A code blockimport csvimport jsonfrom lxml import etreeimport requestsclass QiDianSpider(object):def __init__(self): self.base_url="https://www.qidian...

2019-09-21 09:55:30 2494

原创 illegal multibyte sequence

抓取数据时遇到的问题 gbk无法解码，illegal multibyte sequence原因：1.utf-8编码2.gbk编码，但是有多字符和特殊字符gbk无法解码解决方式：打开网页：F12 在console输入document.charset 查看编码方式确定编码方式后，如果是utf-8 就改编码语言，如果是gbk那么问题就出在第二项上解决方式：改用复杂度更高的gb18030，解码...

2018-11-26 10:14:51 31982 1

zangbianer的博客

原创 pandas操作集合

原创 python中文编码问题