
爬虫
螺纹钢铁侠
这个作者很懒,什么都没留下…
展开
-
selenium chrome 常用设置
chrom_opt = webdriver.ChromeOptions()prefs = { "profile.managed_default_content_settings.images": 2} #无图模式chrom_opt.add_experimental_option("prefs", prefs)chrom_opt.add_experimental_option('excludeSwitches', ['enable-automation']) # 指定为开发者模式规避 被检测到c.原创 2021-03-22 12:02:33 · 295 阅读 · 0 评论 -
安装mitmproxy 报错 ruamel-yaml
删除anaconda/Lib/site-packages下所有的ruamel相关的的文件夹和文件windows 路径anaconda/Lib/site-packages/ruamel*Linux 路径anaconda3/lib/python3.8/site-packages/ruamel*之前搞半天没搞好,只删除文件夹是不行的,其他地方还有ruamel相关的文件...原创 2021-03-19 21:29:15 · 720 阅读 · 0 评论 -
2020年5月 selenium 反检测方案亲测有效
from selenium import webdriver# 为了防止你不确定自己的 chrom 版本,最好两个混合用options = webdriver.ChromeOptions()# chrom在79版之前用这个options.add_experimental_option("excludeSwitches", ["enable-automation"])options.add_experimental_option('useAutomationExtension', False).转载 2020-05-31 14:50:18 · 2601 阅读 · 6 评论 -
selenium 点击指定元素的指定位置
from selenium.webdriver.common.action_chains import ActionChainsfrom selenium import webdriverchrome=webdriver.Chrome()chrome.get('https://kyfw.12306.cn/otn/resources/login.html')ele=chrome.fin...原创 2020-03-16 21:52:23 · 5694 阅读 · 0 评论 -
scrapy 代理IP资源分配难点
代理IP总资源有限 向代 理商请求IP的速度有限制 单个IP并发限制 单个IP有时效,且不统一 目标网站封IP策略未可知,只能试探原创 2019-12-18 20:15:34 · 235 阅读 · 0 评论 -
scrapy CrawlSpider LinkExtractor如何提取img里的src?
rules = ( Rule(LinkExtractor(allow=r'bizhi/'), callback='parse_item', follow=True), Rule(LinkExtractor(tags=['img'],attrs='src'), callback='download_jpg',follow=False), ) def d...原创 2019-12-11 12:25:53 · 953 阅读 · 2 评论 -
scrapy暂停恢复后停止 恢复失败
你是怎么暂停scrapy爬虫的?ctrl+c只按一下是暂停,按两下是停止,暂停可恢复,停止不可恢复启动:scrapy crawl somespider -s JOBDIR=crawls/somespider-1暂停: Ctrl+C恢复:scrapy crawl somespider -s JOBDIR=crawls/somespider-1作...原创 2019-12-09 15:27:35 · 437 阅读 · 0 评论 -
re.findall(r'123',string)里面的r是什么意思?
re.findall(r'123',string)里面的r是什么意思?r 字符串b字节原创 2019-11-25 15:51:21 · 1678 阅读 · 0 评论 -
[python] ThreadPoolExecutor线程池 用法
https://www.jianshu.com/p/b9b3d66aa0beThreadPoolExecutor在线程运行当中出错时不报错,建议不要使用转载 2019-11-12 13:53:53 · 154 阅读 · 0 评论 -
正则表达式 match 于 search 的区别
re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。re.search 扫描整个字符串并返回第一个成功的匹配。...原创 2019-11-03 15:39:56 · 253 阅读 · 0 评论 -
mitmproxy 安装
pip install mitmproxychrome:设置代理172.0.0.1:8080安装mitm的证书.cer,.p12 忽略密码通过chrome.exe --proxy 127.0.0.1:8080……这种命令行方法设置代理服务可能无效...原创 2019-11-02 20:13:39 · 357 阅读 · 0 评论 -
python RSA入门
import rsa##生成秘钥对,公钥公开,私钥保留(publicKey, privateKey) = rsa.newkeys(1024)print(publicKey)//PublicKey(101861417155226123253226044030443663218249053622043363098249592942207612754023411757535050604...原创 2019-10-29 15:31:01 · 186 阅读 · 0 评论 -
fake_useragent UserAgent
fromfake_useragentimportUserAgentua=UserAgent()ua.random1.requestsurl = 'https://api.github.com/some/endpoint'headers = {'user-agent':ua.random}r = requests.get(url, headers=hea...原创 2019-10-28 19:02:32 · 445 阅读 · 0 评论 -
Xpath取得的元素element二级检索,二次检索
temp_ls=Selector.xpath("//tr/td[@class='keyword']/a[@class='list-title']")for index,i in enumerate(temp_ls): tempDict={} tempDict['title']=i.xpath("./text()")[0] tempDict['url']=i.xpath...原创 2019-09-25 19:51:32 · 1211 阅读 · 0 评论