
爬虫
文章平均质量分 86
流浪哥--互联网的浪潮儿
紧跟时代步伐,抓住互联网红利
展开
-
一篇文章告诉你,为什么正则是最强文本处理工具,附Python演示
正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。Python作为一门数据处理语言,经常使用正则匹配段落,比如爬虫爬取数据时。正则表达式是Python内置的模块,不需要额外安装。今天来给大家分享一份比较全面的Python正则表达式宝典,学会之后,你将掌握正则表达式的各种应用场景。一、re模块re (Regular Expression简写),这原创 2021-09-15 14:46:33 · 1950 阅读 · 26 评论 -
快速上手之前端基本功·HTML+CSS+JS,基础牢固,新技术才能得心应手
爬虫系列:实操续:HTML基本结构,以及数据来源,网页获取上次写了一篇爬虫HTML的文章,很多小伙伴和我说,看完文章还是不太懂。我想了想,只讲了数据在哪获取,不讲数据怎么产生的,是有点不好理解。今天就来,带大家一起把整个前端知识进行一次梳理。前端基础知识HTML基础·HTML:超文本标记语言(英语:HyperText Markup Language,简称:HTML)是一种用于创建网页的标准标记语言。1.HTML基本标签/结构<html> <body>原创 2021-09-08 19:54:29 · 632 阅读 · 5 评论 -
Python爬虫理论之cookie验证,不回顾下历史,套路都不知道怎么来的!
cookie在发明之初,为了帮助服务器同步网页上的用户信息,同时保存用户操作,以此减轻服务器压力。没有cookie之前,人们还停留在像电视一样只能对网页进行点播,网站分辨不出是谁在通信。题外话:第一代密码,属于通用性的密钥有了cookie后,你就那个网页做交互了,这时才有了网站账号。由正在浏览的网站创建的cookie被称为第一方cookie。这个东西很重要,你要是不信邪,把这种第一方cookie给禁止了,那么,恭喜你,回到了广播时代。Python requests库默认是打开了cookie原创 2021-09-06 17:37:01 · 814 阅读 · 9 评论 -
实操续:爬虫定位经常报错?试试这个小工具,快速检查XPath,简单明了!
接着爬虫系列,继续讲解XPath定位老司机,带你用30行代码爬取高清美女写真,附安装包+源码实操续:爬虫基础知识,浏览器最基本的配置方法实操续:HTML基本结构,以及数据来源,网页获取今天继续讲解XPath定位一、XPath直观验证工具 selenium IDE效果展示以百度为例,获取所有 div带id属性 的元素,被选中的在HTML背影色加深,在网页中有虚线边框selenium IDE安装1 .下载火狐55以内版本安装包(最新版本已经不支持了),安装完成,迅速设置禁止自动更新版本2原创 2021-08-31 15:11:33 · 757 阅读 · 2 评论 -
实操续:HTML基本结构,以及数据来源,网页获取
接着上篇,继续讲解HTML结构老司机,带你用30行代码爬取高清美女写真,附安装包+源码实操续:爬虫基础知识,浏览器最基本的配置方法今天继续讲解HTML结构爬虫网页内容获取def down_image( page ): print(f'页面{page},开始') t1 = time.time() # page页面跳转 url = f'https://www.36992.com/girls/list-{page}.html' resp = requests.原创 2021-08-24 18:38:59 · 1056 阅读 · 3 评论 -
实操续:爬虫基础知识,浏览器最基本的配置方法
接着上篇,继续讲解http协议老司机,带你用30行代码爬取高清美女写真,附安装包+源码这里只讲解爬虫用得到部分;浏览器的解析F12打开,点击Network,F5刷新,就可以看到HTTP客服端协议url解析http://www.demo.com:8080/list/index.php?boardID=5&ID=24618&page=1#name1.协议部分该URL的协议部分为“http:”,常见的有http:,和https:,其他的还有ftp,utp2域名部分该U原创 2021-08-17 10:55:42 · 1195 阅读 · 11 评论 -
爬虫入门,带你用30行代码爬取高清美女写真,附安装包+源码
1、准备工作首先需要一个相亲网站的账号,我这里选取的是“我主良缘”。注册登陆就可以了:1 高清壁纸:https://www.36992.com/girls/list-1.html2 Python环境Python3.9新特性:字典“并集”运算符类型提示的改善装饰器语法更加灵活classmethod 支持包装其他描述器新增模块、函数、方法Python官网下载:https://www.python.org/3 PyCharm编译器优点:1 )每个文件都有其输出窗口2 )可以终止进程(只原创 2021-08-10 13:41:28 · 5347 阅读 · 4 评论