
网络爬虫
spider
是大嘟嘟呀
人生如梦,易蹉跎
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫框架 - Coocan
一个轻量的异步爬虫框架原创 2025-04-15 16:58:34 · 5805 阅读 · 0 评论 -
execjs解决编码问题(在windows平台)
运行execjs报错UTF-8问题原创 2025-01-02 10:15:38 · 28243 阅读 · 0 评论 -
爬虫 - 爬取王者荣耀所有皮肤图片
无水印、超清图片原创 2024-12-27 16:54:38 · 29301 阅读 · 0 评论 -
爬虫 - Xpath定位的元素转为html字符串
elem对象转为html字符串原创 2023-02-13 13:33:03 · 29709 阅读 · 0 评论 -
爬虫 - CSS表达式
CSS表达式原创 2022-07-28 17:00:38 · 53181 阅读 · 0 评论 -
爬虫 - 最强解析库selectolax
selectolax对比其它解析库原创 2022-07-25 18:05:07 · 43180 阅读 · 0 评论 -
爬虫 -- 简单封装
频繁编写requests.get它不烦吗原创 2022-05-11 15:33:18 · 15568 阅读 · 0 评论 -
Xpath -- 删除标签
删除网页源代码的某些标签原创 2022-04-27 13:54:16 · 4014 阅读 · 0 评论 -
scrapy -- 暂停爬虫、恢复爬虫
自己笔记本电脑在公司跑爬虫,然后下班了,我把爬虫先暂停,然后把电脑带回家。回家后我再接着跑爬虫,它不香吗原创 2022-03-17 17:55:30 · 5302 阅读 · 0 评论 -
爬虫 -- httpx封装
爬虫对接协程原创 2022-02-15 14:29:41 · 1656 阅读 · 0 评论 -
selenium -- 智能等待
智能老司机原创 2022-02-14 12:01:57 · 9330 阅读 · 0 评论 -
爬虫 -- requests、httpx、aiohttp速度对比
同步、异步请求库的对比原创 2022-01-18 16:27:39 · 4395 阅读 · 0 评论 -
爬虫 -- 简单封装
代码# -*- coding: utf-8 -*-# Author : wang_tuo# Time : 2022/1/18 14:29import hashlibimport timeimport randomimport requestsclass Spider: def get_md5(self, s: str) -> str: m = hashlib.md5() m.update(s.encode("utf8"))原创 2022-01-18 15:01:47 · 2443 阅读 · 0 评论 -
爬虫 -- 解析速度超快的库selectolax
selectolax的基本使用不支持xpath语法,我的心好痛被迫学习了css选择器html文本html = '''<demo> <h1>============欢迎靓仔进来学习============</h1> <div id='div1'> <a href="htt://blog.youkuaiyun.com/MarkAdc/article/details/10773644.............原创 2022-01-10 15:11:10 · 4423 阅读 · 3 评论 -
Scrapy - 在下载器中间件中设置随机User-Agent
项目目录在middlewares.py中import randomclass RandomUserAgent: def get_ua(self): first_num = random.randint(55, 62) third_num = random.randint(0, 3200) fourth_num = random.randint(0, 150) os_type = [ '(Window.原创 2021-06-19 14:37:25 · 360168 阅读 · 0 评论 -
Scrapy -- 信号的使用
代码在爬虫文件中@classmethod def from_crawler(cls, crawler, *args, **kwargs): spider = super(T1Spider, cls).from_crawler(crawler, *args, **kwargs) spider.id = f"t1-{datetime.datetime.now()}" crawler.signals.connect(spider.item_scraped原创 2021-04-26 20:19:40 · 2059 阅读 · 0 评论 -
Scrapy -- cookie详解
在setting文件中COOKIES_ENABLED = FalseFalse– 使用的是setting文件里,DEFAULT_REQUEST_HEADERS中的cookie值COOKIES_ENABLED = TrueTrue– 就可以在爬虫文件中使用自定义的cookie,传入的cookie必须是字典类型# COOKIES_ENABLED = TrueCOOKIES_ENABLED被注释– 则是不使用cookie...原创 2021-04-25 15:16:59 · 2171 阅读 · 0 评论 -
Scrapy -- 解决302重定向
代码yield Request(url, meta={ 'dont_redirect': True, 'handle_httpstatus_list': [302] }, callback=self.parse)原创 2021-04-23 12:00:51 · 2207 阅读 · 0 评论 -
Scrapy -- 在下载器中间件中处理异常
代码from twisted.internet.error import TCPTimedOutError, TimeoutErrorclass ProcessException: def process_exception(self, request, exception, spider): if isinstance(exception, TCPTimedOutError): print(f"出异常了(tcp超时) --> {exception原创 2021-04-23 11:44:22 · 2179 阅读 · 0 评论 -
爬虫 -- 王者荣耀爬虫,爬取每个英雄的皮肤图片
前言抓取的重点是找到每个英雄对应的id编号分析先观察单个英雄的单张皮肤图片的url(如下图马超的两张皮肤图片所示)马超一共有三个皮肤(经典算第一张), 每张皮肤的url分别是第一张:https://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/518/518-bigskin-1.jpg第二张:https://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/518.原创 2020-12-23 19:19:37 · 221129 阅读 · 8 评论 -
selenium控制鼠标下滑
前言分两种情况当前页面没有异步加载的数据,直接下滑到页面底部有异步加载的情况,下滑到某个程度就会触发新的数据,然后当前页面会显示出新出来的数据,此时就又需要下滑才能看到后面出来的新数据无异步加载比如我的csdn博客,下滑到底部都没有新的数据刷新下方图片中的网址有异步加载CSND首页的第三个版块,下载版块下方图片中的网址上方图片是刚开始的数据展示当我下滑到一定程度时,数据又新增了,如下方图片下方图片的下拉框对比上方图片的下拉框可以看出来下拉框变小了,说明数据变多了继续下滑原创 2020-07-08 14:20:09 · 967968 阅读 · 0 评论 -
selenium切换新的标签页
前言selenium想要切换标签页就要先知道什么是句柄,如下图所示代码示例from time import sleepfrom selenium import webdriver# 先访问百度chrome = webdriver.Chrome()url = "https://www.baidu.com"chrome.get(url)sleep(1)# 在selenium中打开新的标签页有两种方式# 方式1,执行jsjs = "window.open('http://www.原创 2020-07-07 17:21:41 · 51396 阅读 · 0 评论 -
运用爬虫快速知道关注的主播现在是否在直播
前言需要用到自己成功登陆直播平台的请求头中的cookie信息找寻cookie以虎牙直播为例首先进入我的订阅,如下图所示点击重新载入在左侧找到myfollow,然后点击,接着目光看向右边的区域鼠标滚轮往下滑动,找到一个RequestsHeaders接下来看下图中蓝色框框圈起来的东西cookie就找到了把cookie: 后面的数据全部复制,如下图红圈代码import requestsfrom lxml import etreezb_list = [] # 直原创 2020-07-02 14:32:49 · 4713 阅读 · 0 评论 -
无窗口selenium
代码from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsoptions = Options()options.add_argument("--headless")driver = webdriver.Chrome(options=options)if __name__ == '__main__': url = "https://www.baidu.com" dri原创 2020-06-29 21:15:44 · 4323 阅读 · 0 评论 -
斗图网的图片抓取
import requests, re, multiprocessingdef main(url): response = requests.get(url) html = response.text imgs_name = re.findall('alt="(.*?)"', html, re.S) # 获取到每张图片的名称 imgs_url = re.fin...原创 2019-05-08 16:38:02 · 1688 阅读 · 0 评论 -
关于LoL英雄皮肤名称的问题
代码爬虫链接 https://blog.youkuaiyun.com/MarkAdc/article/details/99710763以剑魔为例,剑魔编号id是266,那么就访问https://game.gtimg.cn/images/lol/act/img/js/hero/266.jshttps://game.gtimg.cn/images/lol/act/img/js/hero/266.jsi...原创 2019-12-30 11:43:43 · 4001 阅读 · 0 评论 -
虎牙直播抓取,数据保存到Excel表格中
前言此篇文章之前已经写过关于虎牙直播的抓取分析了,详情请访问https://blog.youkuaiyun.com/MarkAdc/article/details/90048758代码import requestsimport jsonimport xlwtclass Spider: def __init__(self): # 生成表格对象 self.w...原创 2019-11-26 10:08:37 · 5413 阅读 · 0 评论 -
LOL全英雄皮肤爬虫
使用requests库抓取# -*- coding: utf-8 -*-import requestsimport reimport osclass LOLSpider: def __init__(self): """ 定义一个User-Agent,伪装成浏览器 """ self.headers = {...原创 2019-08-18 22:47:15 · 215243 阅读 · 3 评论 -
xpath兄弟结点语法
代码from lxml import etreehtml = """<div> <hello> 我是hello标签 </hello> <a id="1" href="www.baidu.com"> 我是第1个a标签 </a> <p> 我是p标签0 </p> <a id...原创 2019-07-08 14:31:44 · 6390 阅读 · 0 评论 -
python执行js代码
使用js2py来执行这是第三方库,需要安装pip install js2py代码演示执行js代码import js2pyjs_code = "console.log('hello world')"js2py.eval_js(js_code) # 直接执行js代码# 把js代码转换为python代码,只限于简单js代码js_code2 = ''' funct...原创 2019-05-27 19:38:39 · 4288 阅读 · 0 评论 -
猫眼电影
代码import requestsfrom lxml import etreeimport reimport csvimport threadingclass Spider: def __init__(self): self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0...原创 2019-05-27 18:53:36 · 4230 阅读 · 0 评论 -
豆瓣网电影信息的抓取
豆瓣网爬虫原创 2019-05-10 23:22:41 · 5435 阅读 · 2 评论