
数据采集
数据采集
六·柒
这个作者很懒,什么都没留下…
展开
-
爬虫feaplat平台-搭建
dockr,feaplat原创 2023-10-12 14:36:47 · 652 阅读 · 0 评论 -
数据获取_移动端_模拟器安装
夜神模拟器链接:https://pan.baidu.com/s/1I_siBDYY-BJm2Nyj73-ozw提取码:4gih模拟器设置夜神多开器运行软件出现问题,可以选择兼容模式或者急速模式原创 2020-03-25 16:49:19 · 260 阅读 · 0 评论 -
python3 提高爬虫采集速度 方案三:多进程 + 队列
多进程使用注意点1.多进程说明进程:一个程序运行起来后,代码+用到的资源 称之为进程,它是操作系统分配资源的基本单元。2.使用多进程后的通信多进程中使用普通的队列模块无法实现进程间的通讯,因为进程是系统分配资源的基本单元. 对应的需要使用multiprocessing提供的JoinableQueue模块,其使用过程和在线程中使用的queue方法相同案列使用说明queue = Queue...原创 2019-08-27 17:23:34 · 844 阅读 · 2 评论 -
反爬_代理ip
#!/usr/bin/env python3# -*- coding: utf-8 -*-# @time :2020-03-23 11:53:22# coding=utf8import randomimport requestsfrom bs4 import BeautifulSoupimport reimport os.pathuser_agent = 'Mozilla...原创 2020-03-23 14:12:37 · 255 阅读 · 0 评论 -
反爬_验证码图片读取与显示
import urllib.requestimport http.cookiejarfrom PIL import Imagefrom matplotlib import pyplot as pltimport cv2 as cvcookie = http.cookiejar.CookieJar()opener = urllib.request.build_opener(urllib...原创 2020-03-19 17:21:26 · 212 阅读 · 0 评论 -
数据获取_Pyppeteer_代理设置及超时设置
背景:使用pyppeteer使用代理,由于没有设置超时,是系统默认超时错误提示如:pyppeteer.errors.TimeoutError: Navigation Timeout Exceeded: 30000 ms exceeded解决方法添加超时时间:第一种方法:await page.setDefaultNavigationTimeout(timeout)第二种方法:await...原创 2020-03-19 15:04:00 · 3437 阅读 · 0 评论 -
数据获取_Pyppeteer基本使用(规避webdriver检测)
pyppeteer模块的基本使用pyppeteer模块的基本使用引言Selenium 在被使用的时候有个麻烦事,就是环境的相关配置,得安装好相关浏览器,比如 Chrome、Firefox 等等,然后还要到官方网站去下载对应的驱动,最重要的还需要安装对应的 Python Selenium 库,确实是不是很方便,另外如果要做大规模部署的话,环境配置的一些问题也是个头疼的事情。那么本节就介绍另一个...原创 2020-03-19 11:19:44 · 859 阅读 · 0 评论 -
反爬_session使用 selenium生成的 cookies
#!/usr/bin/env python# -*- encoding: utf-8 -*-from selenium import webdriverimport requestsimport timedef getCookies(): # 设置浏览器默认存储地址 options = webdriver.ChromeOptions() # options.a...原创 2020-03-18 17:09:22 · 337 阅读 · 0 评论 -
数据获取_selenium Firefox_Ip代理设置
profile = webdriver.FirefoxProfile()profile.set_preference("network.proxy.type", 1)# 设置http代理profile.set_preference("network.proxy.http", proxy_ip_list[0])profile.set_preference("network.proxy.ht...原创 2020-03-18 10:56:49 · 440 阅读 · 0 评论 -
多任务 线程池 携程池
多任务 线程池from queue import Queuefrom multiprocessing.dummy import Pool # 数据队列self.data_queue = Queue()self.pool = Pool()def run_more_task(self, func, count=1): '''把func放到线程中执行, count:开启多少线程执行''...原创 2019-11-26 18:24:59 · 306 阅读 · 0 评论 -
python3 爬虫 selenium的使用
selenium读取、添加、删除cookie读取cookie:读取所有cookie:driver.get_cookies()读取指定cookie:driver.get_cookie(name)添加cookie:driver.add_cookie(dict)删除cookie:删除所有cookie:driver.delete_all_cookies()删除指定cookie:driver...原创 2019-08-28 09:38:49 · 280 阅读 · 0 评论 -
一款比Selenium更高效的利器 Pyppeteer
GitHub地址是:https://miyakogi.github.io/pyppeteer参考链接:https://www.jianshu.com/p/611ed6b75d47使用pip install pyppeteer命令就能完成pyppeteer库的安装至于chromium浏览器,只需要一条pyppeteer-install命令就会自动下载对应的最新版本chromium浏览器到pyp...原创 2019-10-31 10:10:00 · 621 阅读 · 0 评论 -
字符集,bytes(二进制)类型和str类型
字符集定义:字符集是计算机中多个字符的集合,字符在计算机中是各种文字和符号的统称。作用:应用在数据通信过程中,在字符串与字节的转换过程中,起到了桥梁的作用。常见的字符集:gbk字符集,utf-8字符集,ASCII字符集,Unicode字符集bytes类型和str类型总结bytes: 二进制,互联网上的数据都是以二进制的方式进行传输str: unicode的呈现形式为了使解码和编码...原创 2019-01-23 16:15:30 · 1230 阅读 · 0 评论 -
什么是xpath?
1.xpath是什么?是一门用来从html\xml查找信息的语言可以从HTML语言中提取数据lxml的作用lxml: lxml是一款高性能的 Python HTML/XML 解析器,我们可以利用XPath,来快速的定位特定元素以及获取节点信息...原创 2019-01-27 16:59:49 · 1855 阅读 · 0 评论