
Python3网络爬虫
JJJims
这个作者很懒,什么都没留下…
展开
-
Python爬取4K图片
今天,我们用Python来爬取4K图片的数据,并保存图片。 首先打开网址:http://pic.netbian.com/4kfengjing/ 打开F12开发者工具,elements栏中定位到图片信息。其中我们可以看出,所有的图片信息都是在一个< div>标签中,并且该div拥有属性class=“slist”,每一个< li >标签内容对应一张图片信息,只要从< li >标签信息中获取到src属性值、alt属性值即可当做图片的名称和访问地址: src="/uploads/原创 2020-09-06 00:25:45 · 1598 阅读 · 5 评论 -
Python爬取58同城二手房信息的标题名称
今天,我们用Python来爬取58同城页面二手房信息的数据。 首先打开网址:https://cs.58.com/ershoufang/ 打开F12开发者工具,elements栏中定位到二手房信息。其中我们可以看出,所有的二手房信息都是在< ul >标签中,每一个< li >标签内容对应一条二手房信息,只要从< li >标签信息中获取到标题名称即可。 详细代码如下: import requests from lxml import etree if __name__=="原创 2020-09-05 22:16:18 · 808 阅读 · 0 评论 -
正则表达式---知多少
Python的正则表达式支持 re模块所包含的全部属性和函数: re.compile(pattern,flags=0):该函数用于将正则表达式字符串编译成_sre.SRE_Pattern对象,该对象代表了正则表达式编译之后在内存中的对象,可以缓存并复用正则表达式字符串; re.match(pattern,string,flags=0):尝试从字符串的开始位置来匹配正则表达式,如果开始位置匹配不成功,match()函数就返回None。其中pattern参数代表正则表达式,string代表被匹配的字符串,fl原创 2020-09-01 18:08:06 · 200 阅读 · 0 评论 -
Python爬取糗事百科中的图片(正则解析)
先了解一下数据解析的基础概念。 聚焦爬虫主要是爬取页面中指定的页面内容,建立在通用爬虫基础之上。 加入数据解析环节后,爬虫编码流程变为: 指定url 发起请求 获取响应数据 数据解析 持久化存储 数据解析总共分为三类: 正则 bs4 xpath(学习重点) 数据解析原理概述:解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储; 1.进行指定标签的定位 2.标签或者标签对应的属性中存储的数据值进行提取(解析) 通过具体实例来熟悉: # 需求:爬取糗事百科中糗图板块下所有糗图图片 import原创 2020-09-01 17:32:31 · 423 阅读 · 0 评论 -
Python爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)
首先,我们先了解一下两种网络请求模块:urllib模块(不推荐)和requests模块 requests模块:python中原生的一款基于网络请求的模块,功能非常强大、简单便捷、效率极高。 作用:模拟浏览器发请求 requests模块的编码流程 指定url 发起请求 获取响应数据 持久化存储 环境安装 pip install requests 实战编码: 需求 爬取搜狗指定词条对应的搜索结果页面(简易网页采集器) 编写爬虫前,我们还需要了解: User-Agent:请求载体的身份标识 UA检测:门原创 2020-08-20 17:35:56 · 2009 阅读 · 0 评论 -
初识Python3网络爬虫
什么是Python3网络爬虫? 定义: 网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本。爬虫其实是通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。 爬虫的价值: 抓取互联网上的数据,为我所用,有了大量的数据,就如同有了一个数据银行一样,下一步就是如何将这些数据产品化、商业化。 爬虫是否合法 网络爬虫在法律中是不被禁止,但是具有违法风险,通常来说爬虫分为善意的爬虫和恶意的爬虫。 爬虫带来的风险可以体现在如下两个方面: 爬虫干扰了被访原创 2020-08-20 17:12:11 · 279 阅读 · 0 评论