
python爬虫数据抓取
文章平均质量分 86
python全栈学习中~
晴朗_不积跬步无以至千里
坚持不懈
展开
-
Python爬虫之九:用正则表达式爬取赶集网租房信息
一、项目分析1、查询主页和详情页面的关系得出数据关系:每一个 class 属性为 f-list-item ershoufang-list 的 div 包含着整个需要爬取数据的信息,且查询 ershoufang-list 为 42 个,说明这个属性没有重复,与一个页面42个房源信息对应。2、需要爬取的数据的正则特征1、房源信息结论:需要查找的房源信息在 class 属性值为 js-title value title-font 的 a 标签中,因此正则表达式为:<div.+?g-list"原创 2021-02-10 00:39:28 · 1173 阅读 · 3 评论 -
Python爬虫之八:正则表达式
1、re 模块re模块是python独有的匹配字符串的模块,该模块中提供的很多功能是基于正则表达式实现的,而正则表达式是对字符串进行模糊匹配,提取自己需要的字符串部分,他对所有的语言都通用。注意:1.re模块是python独有的2.正则表达式所有编程语言都可以使用3.re模块、正则表达式是对字符串进行操作因为,re模块中的方法大都借助于正则表达式,故先学习正则表达式。2、正则表达式1.正则就是用一些具有特殊含义的符号组合到一起(称为正则表达式)来描述字符或者字符串的方法。2.正则就是用来描述原创 2021-02-09 02:01:07 · 437 阅读 · 0 评论 -
Python爬虫之六:Beautiful Soup 4 库
一、简介Beautiful Soup 4 库和 lxml 库一样,是python的一个HTML或XML的解析库,我们可以用它来方便的从网页中提取数据,它拥有强大的API和多样的解析方式。与 lxml 对比:lxml 只会局部遍历,而Beautiful Soup 是基于 HTML DOM 的,它会载入整个文档,解析DOM树,因此时间和内存开销都会很大,所以性能低于 lxml。1、安装Beautiful Soup 4 库1、dos命令窗口输入:pip install bs42、pycharm 中搜索安原创 2021-02-07 21:54:57 · 631 阅读 · 1 评论 -
Python爬虫之四:数据解析
一、XpathXPath 是一门在 XML 和 HTML 文档中查找信息的语言,用于在 XML 和 HTML 文档中通过元素和属性进行导航。谷歌浏览器安装 Xpath Heleper百度一下谷歌浏览器安装 Xpath Heleper,对着操作即可启动快捷键: shift + ctrl + x火狐浏览器安装 Try Xpath百度一下谷歌浏览器安装 Try Xpath,对着操作即可1、XPath 节点在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)原创 2021-02-04 20:31:14 · 278 阅读 · 0 评论 -
Python爬虫之三:爬虫 requests 库的使用
一、requests 的安装1、通过dos窗口,输入:pip install requests 进行安装2、通过pycharm 的 setting 中搜索: resquests 进行安装requests 库的中文文档:https://requests.readthedocs.io/zh_CN/latest/二、发送 get 请求在百度搜索中国,爬取搜索后的网页:import requestsurl = 'https://www.baidu.com/s'headers = { '原创 2021-02-03 20:03:51 · 1303 阅读 · 0 评论 -
Python爬虫之二:爬虫urllib库的使用(2)
一、urllib 库1 、ProxyHandler处理器(代理设置)很多网站会检测某一时间段某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人操作,它就会禁止这个IP的访问,因此我们要用到ProxyHandler处理器来设置代理。代理服务器原理:请求目的网站前,先通过代理服务器去请求目的网站,代理服务器拿到目的网站的数据后,在返回给我们。提供一个查看访问ip的网站:http://www.httpbin.org/ip此网站可以看到是哪个ip访问了它常用的代理网站有:快代原创 2021-01-13 22:37:09 · 1436 阅读 · 0 评论 -
Python爬虫之二:爬虫urllib库的使用(1)
一、urllib库urllib是Python自带的标准库,无需安装,可以直接使用。它可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。如果想系统性的学习urllib库,可以直接看它的官方文档(https://docs.python.org/3/library/urllib.html)。1、urllib.request 请求模块在Python3的urllib库中,所有的网络请求相关的方法,都被采集到urllib.request模块中。urlopen()函数的使用:创建一个原创 2021-01-12 00:15:21 · 3495 阅读 · 2 评论 -
Python爬虫之一:爬虫基础
一 、爬虫介绍1、什么是爬虫爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页,并把数据爬取下来,然后使用一定的规则提取有价值的数据。2、爬虫的应用场景搜索引擎(百度或者谷歌)伯乐在线惠惠购物助手数据分析抢票软件3、为什么使用python写爬虫程序PHP:PHP是世界上最好的语言,但是他天生不是做这个的,而且对多线程、异步支持不是很好,并发处理能力弱。爬虫是工具性程序,对速度和效率的要求比较高。Java:生态圈完善,是Python爬虫最大的竞争对手,但是Java语言本身很笨重原创 2021-01-10 22:51:15 · 386 阅读 · 0 评论