
爬虫
子嘉113
这个作者很懒,什么都没留下…
展开
-
App爬虫相关知识点汇总
1.抓包工具无法解析SSL数据的原因:手机(模拟器)没有安装xposed框架和just-trust-me组件。原创 2022-09-27 22:56:59 · 964 阅读 · 0 评论 -
数据(包括图片)写入Excel的实现总结
2.1 要用到 requests,PIL,os,xlsxwriter,可在终端用pip命令安装这些包.1.1再终端安装xlwt pip install xlwt。2 利用xlsxwriter写入数据及图片到excel文件。1.用xlwt创建并把数据写入Excel文件。2.3如遇到如下bug。原创 2022-08-03 21:32:41 · 322 阅读 · 0 评论 -
安卓模拟器(手机)安装抓包工具(fiddler)证书及手机设置代理后无法上网?
我的手机设置代理后,无法上网然后,试了别人的手机也不可以,也不可以,按照网上说的设置了regedit,还有fiddler的脚本也不可以,最后我更改了防火墙里面运行通过应用的网络类型,把原来的只有公用,改为公用和专用都可以,于是,手机可以上网了。.........原创 2021-12-18 20:41:30 · 4159 阅读 · 2 评论 -
做爬虫的总结
爬虫的部分心得原创 2022-05-31 22:43:15 · 232 阅读 · 0 评论 -
读取csv(excel类相关文件)常见bug,及解决办法统计
bug1:UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xb1 in position 5: illegal multibyte sequence解决办法1:上面报错的意思就是,默认以gbk的方式读取数据,但是文本数据是utf-8类型的,这是需要用到另一个参数encoding,也就是把它编码成与文本一样类型的格式,下面的代码encoding="utf-8"就是要修改的地方,如果不写编码格式,默认是encoding="gbk"的#open(“.原创 2022-05-29 19:19:35 · 2789 阅读 · 0 评论 -
selenium模式下切换窗口,抓取数据的实现
selenium下切换窗口的方法如下for handle in driver.window_handles:driver.switch_to_window(handle)具体应用可以测试如下实例(代码如下):from selenium import webdriverimport timeimport randomimport csv# 1.绕过滑块验证inquire_company=input('请输入要查询的公司名称:')option=webdriver.ChromeOpti原创 2022-04-21 22:24:49 · 1011 阅读 · 0 评论 -
绕过滑块验证码登陆网站的实现
因为有些网站登陆的时候需要经过滑块验证码,这里实现了,一个绕过滑块验证码的实例from selenium import webdriverimport timeimport random# 1.绕过滑块验证option=webdriver.ChromeOptions()option.add_experimental_option('excludeSwitches', ['enable-automation'])option.add_argument('--disable-blink-fea原创 2022-04-15 22:11:35 · 2442 阅读 · 5 评论 -
简单分布式爬虫的实现(单机)
实现之前要先了解分布式爬虫的结构:了解完之后我们可以分为两部分编写代码:1.控制节点部分2.爬虫节点部分可以根据这两部分,创建代码架构如下代码如下一.控制节点部分1.控制调度器# coding:utf-8from multiprocessing.managers import BaseManagerfrom multiprocessing import Process,Queueimport timefrom 爬虫代码.分布式爬虫.控制节点.Url管理器 import Url原创 2022-03-25 20:33:23 · 799 阅读 · 0 评论 -
windows下爬虫+数据库(非关系数据库/关系数据库)的实现简介2-MYSQL
二.mysql篇1.准备:1.1.下载mysql(注意根据自己的电脑软件位数选则,我的是32位的)1.2根据自己的情况设置自己的mysql密码1.3测试自己的mysql是否安装成功,在命令提示行输入命令mysql -u root -p然后输入上一步设置的密码,如果成功结果如下图1.4.了解基本的SQL语法,可以对数据库进行简单的操作。2.python操作mysql连接mysql可以用的模块有mysqldb和pymysql,由于电脑限制此处选择pymysql,对mysqldb感兴趣的可原创 2022-02-08 16:52:25 · 922 阅读 · 0 评论 -
windows下爬虫+数据库(非关系数据库/关系数据库)的实现简介1-redis
本篇涉及到爬虫用的是Python+selenium,关于python+selenium实现对数据的抓取,主要知识点已在上一篇介绍,有问题的可以看上一篇,本节将结合上一节知识点,主要讲解爬虫爬取数据后与数据库(redis/mysql)结合的具体操作。一.redis篇1 准备1.1.在redis网址下载(下载地址[https://redis.io/download]1.2.解压下载的redis文件1.3.双击redis-server.exe,即启动redis数据库如下图2.python操作redi原创 2022-02-07 22:42:47 · 1279 阅读 · 0 评论 -
爬取带验证码网站思路的小结
由于现在网站技术的发展及爬虫技术的推进,现在网站很多都有访问时需要填写验证码的问题,经过查询,现对验证码问题进行总结,如下:1.IP代理 当我们频繁用一个IP登陆某个网站时,会出现需要填写验证码的问题,解决此种问题可以用IP代理的思路具体有三种方法:(1)借用VPN,更换不同的线路,进而更换IP。(2)IP代理池,借用一些厂商提供的IP代理池的API,更换IP(3)ADSL,利用拨号上网每次分配不同IP的机制,实现更换IP2 cookie登陆,为了避免每次登陆都要输入账号密码,验证码的麻烦,我们可原创 2022-02-08 21:44:51 · 1803 阅读 · 0 评论 -
requestes爬虫中xpath的使用方法
源码如下:import requestsfrom lxml import etree# 获取响应url='https://www.zhipin.com/c100010000/?query=python&page=2&ka=page-2'headers={ # 'cookie':'acw_tc=0bdd34f616432872078207682e019f0d9aba3c40cef3a9ae8631ef43f89386; sid=sem_pz_bdpc_dasou_title原创 2022-01-27 21:36:50 · 2182 阅读 · 0 评论 -
scrapy爬取100张美女图片--极速爬取美女图片(及简要知识点)
1.创建爬虫项目,在指定文件夹的命令窗口下运行scrapy startproject cnblogspider项目结构如下2.添加item代码如下import scrapyclass CnblogspiderItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() url=scrapy.Field() cimage_urls=scrapy.F原创 2022-01-14 21:35:11 · 676 阅读 · 4 评论 -
一个完整的scrapy爬取图片示例-及简要知识点
1.创建爬虫项目,在指定文件夹的命令窗口下运行scrapy startproject cnblogspider项目结构如下2.添加item代码如下import scrapyclass CnblogspiderItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() url=scrapy.Field() cimage_urls=scrapy.F原创 2022-01-12 22:27:03 · 883 阅读 · 0 评论 -
scrapy中parse()方法中常用的知识点1
成功代码如下:import scrapyclass CnblogSpider(scrapy.Spider): name = 'cnblog' allowed_domains = ['cnblogs.com'] start_urls = ['http://cnblogs.com/qiyeboy/default.html?page=1'] def parse(self, response): # 实现网页的解析 # 首先抽取所有的文章原创 2022-01-10 23:43:48 · 678 阅读 · 0 评论 -
创建scrapy爬虫模块---登陆知乎及几个小模块的使用方法
Request的导入方法from scrapy import RequestSelector的导入方法为 from scrapy import SelectorFormRequest为Request的子类导入方法为 from scrapy import FormRequestjson的导入方法 import json其中json.loads()的作用是将json字符串转化成python对象。具体在实例中的应用如下代码:`import scrapyfrom scrapy import Reque原创 2022-01-06 19:34:34 · 304 阅读 · 0 评论 -
基本爬虫爬取200条百度百科的代码
最近测试了一个基本爬虫爬取200条百度百科代码如下,有需要的可以拿去,代码复制到pycharm里面可以直接运行,如果有什么疑问可以私信我(或vx:jlm0314)。url管理器(Urlmanager.py)代码如下:# coding:utf-8class Urlmanager(object): def __init__(self): self.new_urls=set() self.old_urls=set() def has_new_url(self)原创 2021-12-27 20:37:18 · 913 阅读 · 0 评论