- 博客(12)
- 收藏
- 关注
原创 python中文编码问题
出现中文编码乱码的情景1.服务后端返回值出现中文乱码,或者必须json解码后才能展示这是因为json.dumps 序列化时对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=False处理方式@api.route("/route", methods=['GET'])def ***(): pass resu = {'status':stauts,'info':info} return json.dumps(resu, ensure_ascii=False)2.
2021-05-24 16:24:24
187
原创 数据挖掘(一)数据挖掘的发展及算法简介
写这个博客主要是为了增强自身的理解和记忆,个人见解颇多,欢迎指正,欢迎讨论。大数据时代的数据挖掘信息时代的发展,信息的爆发性增长,衍生了我们目前的“大数据时代”,整个社会全员大数据,提供了很多工作机会,尤其是对我们这些从事爬虫工作的人员,在爬虫工作形式日益严峻的前提下,愈发厌倦了和反爬人员的撕逼大战,站在道德高点上砍瓜切菜,对我们这些靠技术混口饭吃的码农们,产生了刀刀大动脉的暴击,一方面是技术...
2019-11-10 22:03:11
1138
原创 python爬虫js逆向
js逆向要想是想,要非常熟悉web的运行流程,针对不同网站,有不同的思路,这个博客是针对人人直播的一个爬取,先直接上代码,然后在讲解,import requestsimport js2pyimport jsonheaders = { "User-Agent":"Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) Apple...
2019-09-22 11:20:05
1120
原创 scrapy实现分布式
scrapy实现分布式其实主要是需要redis的队列来实现,想做这个,建议先了解下redis的基础形式我的上篇博客说过,spider的基础流程而,分布式其实就是将spider获取的url包装成requests,发送给调度器scheduler的时候,使用redis的队列进行分发,分发给多个单机爬虫调度器,同时将存储的结构化数据保存到redis继承自父类为RedisSpider2.增加了一...
2019-09-22 10:39:15
741
原创 scrapy框架
首先我们先了解下scrapy的基本知识,scrapy框架的作用:通过少量代码实现快速抓取1.简单爬虫的基本流程:或者是这样而scarpy的流程是另一种模式1.调度器把requests–>引擎–>下载中间件—>下载器2.下载器发送请求,获取响应---->下载中间件---->引擎—>爬虫中间件—>爬虫3.爬虫提取url地址,组装成reques...
2019-09-22 10:16:17
152
原创 爬虫登陆问题,selenium截取图片验证码
获取登陆验证码,需要了解前端的基本构造,css的模块尺寸中间件,需要自己补足一下前端的基本知识能力上代码#!/usr/bin/python3# -*- coding: utf-8 -*-from selenium import webdriverfrom PIL import Image# import pytesseractimport timefrom io import ...
2019-09-21 11:16:37
563
原创 爬虫处理iframe的方法
iframe是前端内嵌页面,访问域名与主网页不同,requests请求无法获取,技术可以的话,可以从解析js抓取iframe域名,要技术过硬啊,需要的参数很多以后再说上代码#!/usr/bin/python3# -*- coding: utf-8 -*-from selenium import webdriverbrowser = webdriver.Chrome('./chrom...
2019-09-21 11:01:59
11227
2
原创 seliunm的基本使用
这篇写一个selenium简单爬虫,至于安装什么的,直接下,网上有不少资源,chromedriver的下载,主要写一个基本的写法1.模拟浏览器2.获取爬虫的url,模拟浏览器3.模拟浏览器,点击切换页面,4获取内容,写成item保存5.文本写入# !/usr/bin/python3# -*- coding: utf-8 -*-import csvimport jsonimpor...
2019-09-21 10:47:56
999
1
原创 百度贴吧爬虫
爬虫基本格式上篇有了,这篇记录图片的爬取,同样没啥技术点,上代码import requestsfrom lxml import etreefrom pprint import pprintclass TiebaSpider(object): def __init__(self): self.kw = "魔兽世界" self.base_url = ...
2019-09-21 10:07:08
258
原创 起点爬虫爬取全部书籍
起点的爬虫没有什么特殊的难点,就以基本的爬虫步骤简单的看一下,不说上代码// A code blockimport csvimport jsonfrom lxml import etreeimport requestsclass QiDianSpider(object):def __init__(self): self.base_url="https://www.qidian...
2019-09-21 09:55:30
2494
原创 illegal multibyte sequence
抓取数据时遇到的问题 gbk无法解码,illegal multibyte sequence原因:1.utf-8编码2.gbk编码,但是有多字符和特殊字符gbk无法解码解决方式:打开网页:F12 在console输入document.charset 查看编码方式确定编码方式后,如果是utf-8 就改编码语言,如果是gbk那么问题就出在第二项上解决方式:改用复杂度更高的gb18030,解码...
2018-11-26 10:14:51
31982
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人