
爬虫
文章平均质量分 52
啦哆咪
苦逼的学生狗
展开
-
lxml库
lxml库lxml是一个HTML/XML的解析器,主要的功能如何解析和提取HTML/XML数据。lxml和正则一样,也是用C实现的,是一款高性能的Python HTML/XML解析器,我们可以利用之前学习的XPath语法,来快速定位特定元素以及节点信息。读取与解析HTML解析字符串# -*- coding:utf-8 -*-from lxml import etreetext = '''<ul> <li>列表1</li> <原创 2021-01-29 13:45:26 · 1595 阅读 · 0 评论 -
XPath基础
Xpath基础xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。基础语法原创 2021-01-28 22:03:15 · 244 阅读 · 0 评论 -
requests库
requests库requests是一个第三方HTTP库,其使用比起原生的urllib方便很多安装requestspip install requests原创 2021-01-28 16:29:16 · 224 阅读 · 0 评论 -
ProxyHandler代理
ProxyHandler代理什么是代理很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个IP的访问。所以我们可以设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁止,依然可以换个IP继续爬取。python代理的使用使用方法如下:from urllib import requesturl = 'http://httpbin.org/ip'req = request.Request(url, headers={'User-A原创 2021-01-27 21:46:34 · 368 阅读 · 0 评论 -
urllib库
urllib库urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。urlopen函数:在Python3的urllib库中,所有和网络请求相关的方法,都被集到urllib.request模块下面了,以先来看下urlopen函数基本的使用:from urllib import requestresp = request.urlopen('http://www.baidu.com')print(resp.read())原创 2021-01-27 19:57:33 · 1551 阅读 · 0 评论 -
爬虫基础
爬虫基础什么是爬虫通俗的说:通俗理解:爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并数据抓取下来,然后使用一定的规则提取有价值的数据。通用爬虫和聚焦爬虫1.通用爬虫:通用爬虫是搜索引擎抓取系统(百度、谷歌、搜狗等)的重要组成部分。主要是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。2.聚焦爬虫:是面向特定需求的一种网络爬虫程序,他与通用爬虫的区别在于:聚焦爬虫在实施网页抓取的时候会对内容进行筛选和处理,尽量保证只抓取与需求相关的网页信息。为什么用Python写爬虫程原创 2021-01-27 19:53:13 · 148 阅读 · 0 评论