
Python
文章平均质量分 94
GitLqr
A Little White Developer
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python - 爬虫基础与requests模块
欢迎关注微信公众号:FSA全栈行动 ???? 一、爬虫基础 概念 模拟浏览器,发送请求,获取响应 作用 数据采集 软件测试 抢票 网站上的投票 网络安全 虫师 博客:https://www.cnblogs.com/fnng/ 1、http 与 https 的概念和区别 HTTP:超文本传输协议,默认端口号是 80。 超文本:指超过文本,不仅限于文本;还包括图片、音频、视频等文件。 传输协议:是指使用共同约定的固定格式来传递转换成字符串的超文本内容。 HTTPS:HTTP + S原创 2021-07-05 08:02:59 · 308 阅读 · 0 评论 -
Python - 爬虫之Scrapy
欢迎关注微信公众号:FSA全栈行动 ???? 一、scrapy 概念和流程 1、概念 Scrapy 是一个 python 编写的,被设计用于爬取网络数据、提取结构性数据的开源网络爬虫框架。 作用:少量的代码,就能够快速的抓取 官方文档:https://scrapy-chs.readthedocs.io/zh_CN/0.24/ 补充:Scrapy 使用了 Twisted 异步网络框架,可以加快下载速度 2、工作流程 其流程描述如下: 爬虫中起始的 url 构造成 request 对象 -->原创 2021-07-13 19:23:20 · 1523 阅读 · 7 评论 -
Python - 爬虫之Selenium
欢迎关注微信公众号:FSA全栈行动 ???? 一、Selenium 的介绍 Selenium 是一个 Web 自动化测试工具,最初是为网站自动化测试而开发,Selenium 可以直接调用浏览器,它支持所有主流的浏览器(包括 PhantomJS 这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏等。 1、Selenium 启动 Chrome 在下载好 chromedriver 以及安装好 selenium 模块后,执行下列代码: from selenium import原创 2021-07-12 00:12:01 · 503 阅读 · 0 评论 -
Python - 爬虫之数据提取
欢迎关注微信公众号:FSA全栈行动 ???? 一、概述 1、响应内容的分类 结构化的响应内容 json 字符串:可以使用 re、json、jsonpath 等模块来提取特定数据 xml 字符串:可以使用 re、lxml 等模块来提取特定数据 非结构化的响应内容 html 字符串:可以使用 re、lxml、Beautiful Soup、pyquery 等模块来提取特定数据 注意:re 模块需要掌握正则语法,lxml 模块需要掌握 xpath 语法。 2、xml 与 html 的区别原创 2021-07-05 20:45:25 · 349 阅读 · 0 评论