
爬虫
文章平均质量分 94
friklogff
2023「博客之星」TOP 46。坚持学习分享Python,Java,Go,C/C++,JavaScript,Rust,C#知识。
展开
-
爬虫框架Scrapy学习笔记-3
在网络爬虫开发中,数据的存储和处理是至关重要的环节。Scrapy作为Python中一款强大的网络爬虫框架,提供了丰富的数据存储和处理功能,其中最重要的概念之一就是管道(Pipeline)。本文将深入探讨Scrapy管道的使用,包括如何将爬取的数据保存到不同的数据存储中,以及如何下载和处理图片数据。原创 2023-11-09 23:49:50 · 196 阅读 · 0 评论 -
Scrapy+Selenium自动化获取个人优快云文章质量分
本代码示例使用Python的Scrapy和Selenium库,以自动化的方式获取优快云文章的质量分数,从而帮助博客作者更方便地了解其文章在平台上的表现。原创 2023-09-20 23:09:22 · 546 阅读 · 0 评论 -
【爬虫基础】万字长文详解XPath
XPath是一种用于在XML和HTML文档中查找和定位信息的查询语言。它允许你按照一定的规则描述路径,以定位文档中的特定元素或节点。XPath不仅用于解析文档,还可用于验证文档的结构、计算节点的值以及执行各种复杂的操作。无论你是在进行数据挖掘、爬虫开发还是测试自动化,XPath都是一个非常有用的工具。选择难度: 如果需要处理复杂的文档结构或选择操作,XPath可能更适合,但对于简单的操作,CSS选择器更直观。性能: 在处理大型文档时,CSS选择器通常具有较好的性能,但XPath在复杂选择操作时性能稍差。原创 2023-09-19 12:29:52 · 2245 阅读 · 0 评论 -
爬虫框架Scrapy学习笔记-2
Scrapy框架由多个组件组成,包括引擎、调度器、下载器、爬虫、项目管道以及中间件等,这些组件协同工作,使得爬取和处理数据变得高效而灵活。工作流程包括从引擎启动请求,经过调度器和下载器,然后由爬虫解析响应内容并提取数据,最后经过项目管道进行后续处理。Scrapy的工作流程可以类比为一个采集工厂,各个组件扮演不同的角色,协同完成数据的生产和处理过程。原创 2023-09-16 23:25:34 · 1954 阅读 · 0 评论 -
爬虫框架Scrapy学习笔记-1
摘要:本文介绍了网页加载过程、HTTP状态码、反爬措施、数据解析、多任务异步爬虫、数据存储和面向对象编程。读者将了解如何爬取网页数据、处理和存储,以及面向对象编程的基本原理。这些技能对于信息收集、数据分析和网页开发非常有用。原创 2023-09-14 23:51:04 · 3175 阅读 · 0 评论 -
爬虫数据清洗可视化实战-就业形势分析
本报告旨在分析基于大数据的当地就业形势,并提供有关薪资、工作地点、经验要求、学历要求、公司行业、公司福利以及公司类型及规模的详细信息。该分析是通过网络爬虫技术对招聘网站的数据进行采集和分析而得出的。本文部分内容来自网上搜集与个人实践。如果任何信息存在错误,欢迎读者批评指正。本文仅用于学习交流,不用作任何商业用途。原创 2023-09-02 20:31:02 · 1170 阅读 · 0 评论 -
自动化管理chromedriver-完美解决版本不匹配问题
chromedriver_autoinstaller可以自动管理chromedriver版本,是Python Selenium测试者的必备工具。它可以提高代码可移植性,减少版本问题导致的失败。推荐结合使用,使得自动化测试更加稳定可靠。原创 2023-08-31 23:24:00 · 2825 阅读 · 0 评论 -
selenium+Excel半自动化爬虫答题
Selenium爬取动态网页BeautifulSoup解析HTMLExcel文件读写项目规划和框架设计多种技术的组合运用原创 2023-07-24 18:35:20 · 897 阅读 · 0 评论 -
如何使用ChromeDriverManager 来管理ChromeDriver
使用ChromeDriverManager 来管理ChromeDriver可以简化chromedriver的管理,降低测试维护成本。ChromeDriverManager可以自动下载和配置chromedriver,大大简化了chromedriver的管理,降低了测试的维护成本。非常值得在自动化测试中使用。原创 2023-07-22 09:35:45 · 5566 阅读 · 1 评论