自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 pandas操作集合

pandas

2023-07-05 18:40:51 232

原创 python中文编码问题

出现中文编码乱码的情景 1.服务后端返回值出现中文乱码,或者必须json解码后才能展示 这是因为json.dumps 序列化时对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=False 处理方式 @api.route("/route", methods=['GET']) def ***(): pass resu = {'status':stauts,'info':info} return json.dumps(resu, ensure_ascii=False) 2.

2021-05-24 16:24:24 223

原创 数据挖掘(一)数据挖掘的发展及算法简介

写这个博客主要是为了增强自身的理解和记忆,个人见解颇多,欢迎指正,欢迎讨论。 大数据时代的数据挖掘 信息时代的发展,信息的爆发性增长,衍生了我们目前的“大数据时代”,整个社会全员大数据,提供了很多工作机会,尤其是对我们这些从事爬虫工作的人员,在爬虫工作形式日益严峻的前提下,愈发厌倦了和反爬人员的撕逼大战,站在道德高点上砍瓜切菜,对我们这些靠技术混口饭吃的码农们,产生了刀刀大动脉的暴击,一方面是技术...

2019-11-10 22:03:11 1174

原创 python爬虫js逆向

js逆向要想是想,要非常熟悉web的运行流程,针对不同网站,有不同的思路,这个博客是针对人人直播的一个爬取,先直接上代码,然后在讲解, import requests import js2py import json headers = { "User-Agent":"Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) Apple...

2019-09-22 11:20:05 1158

原创 scrapy实现分布式

scrapy实现分布式其实主要是需要redis的队列来实现,想做这个,建议先了解下redis的基础形式 我的上篇博客说过,spider的基础流程 而,分布式其实就是将spider获取的url包装成requests,发送给调度器scheduler的时候,使用redis的队列进行分发,分发给多个单机爬虫调度器,同时将存储的结构化数据保存到redis 继承自父类为RedisSpider 2.增加了一...

2019-09-22 10:39:15 782

原创 scrapy框架

首先我们先了解下scrapy的基本知识,scrapy框架的作用:通过少量代码实现快速抓取 1.简单爬虫的基本流程: 或者是这样 而scarpy的流程是另一种模式 1.调度器把requests–>引擎–>下载中间件—>下载器 2.下载器发送请求,获取响应---->下载中间件---->引擎—>爬虫中间件—>爬虫 3.爬虫提取url地址,组装成reques...

2019-09-22 10:16:17 175

原创 爬虫登陆问题,selenium截取图片验证码

获取登陆验证码,需要了解前端的基本构造,css的模块尺寸中间件,需要自己补足一下前端的基本知识能力 上代码 #!/usr/bin/python3 # -*- coding: utf-8 -*- from selenium import webdriver from PIL import Image # import pytesseract import time from io import ...

2019-09-21 11:16:37 596

原创 爬虫处理iframe的方法

iframe是前端内嵌页面,访问域名与主网页不同,requests请求无法获取,技术可以的话,可以从解析js抓取iframe域名,要技术过硬啊,需要的参数很多以后再说 上代码 #!/usr/bin/python3 # -*- coding: utf-8 -*- from selenium import webdriver browser = webdriver.Chrome('./chrom...

2019-09-21 11:01:59 11306 2

原创 seliunm的基本使用

这篇写一个selenium简单爬虫,至于安装什么的,直接下,网上有不少资源,chromedriver的下载,主要写一个基本的写法 1.模拟浏览器 2.获取爬虫的url,模拟浏览器 3.模拟浏览器,点击切换页面, 4获取内容,写成item保存 5.文本写入 # !/usr/bin/python3 # -*- coding: utf-8 -*- import csv import json impor...

2019-09-21 10:47:56 1055 1

原创 百度贴吧爬虫

爬虫基本格式上篇有了,这篇记录图片的爬取,同样没啥技术点,上代码 import requests from lxml import etree from pprint import pprint class TiebaSpider(object): def __init__(self): self.kw = "魔兽世界" self.base_url = ...

2019-09-21 10:07:08 277

原创 起点爬虫爬取全部书籍

起点的爬虫没有什么特殊的难点,就以基本的爬虫步骤简单的看一下,不说上代码 // A code block import csv import json from lxml import etree import requests class QiDianSpider(object): def __init__(self): self.base_url="https://www.qidian...

2019-09-21 09:55:30 2608

原创 illegal multibyte sequence

抓取数据时遇到的问题 gbk无法解码,illegal multibyte sequence 原因:1.utf-8编码 2.gbk编码,但是有多字符和特殊字符gbk无法解码 解决方式:打开网页:F12 在console输入document.charset 查看编码方式 确定编码方式后,如果是utf-8 就改编码语言,如果是gbk那么问题就出在第二项上 解决方式: 改用复杂度更高的gb18030,解码...

2018-11-26 10:14:51 32108 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除