
Python爬虫
文章平均质量分 56
本专栏会分享一些Python爬虫的基础知识和实例代码。
长得丑就要多读书
天线小菜鸡,Python小辣鸡。
展开
-
Python爬虫--BeautifulSoup解析器
1.BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库,使用前需安装:pip install bs4BeautifulSoup支持Python标准库中的HTML解析器,还支持第三方解析器,默认使用HTML解析器。解析器 语法结构 优点 缺点 标准库 BeautifulSoup(html,‘html.parser’) 内置标准库,速度适中 Python3.2版本前的文档容错能力差 lxml HTML Beautif原创 2022-01-23 10:49:11 · 1366 阅读 · 0 评论 -
Python爬虫--XPath解析数据
1.XPathXPath(XML Path Language)是一种在XML文档中查找信息的语言。XPath的优点:可在XML中查找信息,支持HTML的查找,可通过元素和属性进行导航。使用时需安装lxml库:pip install lxml转载 2022-01-22 22:11:43 · 589 阅读 · 0 评论 -
Python爬虫--网络请求(2)
1.原创 2022-01-21 11:05:27 · 954 阅读 · 0 评论 -
Python爬虫--网络请求(1)
1.IP代理某些网站会检测一段时间内某IP的访问次数,若访问次数过多会禁止访问,这时需要设置一些代理服务器,每隔一段时间换一个代理。IP代理的分类:①透明代理:目标网站可以得知使用了代理以及源IP地址,显然这不符合要求;②匿名代理:目标网站知道使用了代理,但不知道源IP地址;③高匿代理:最保险的方式,目标网站既不知道使用了代理,也不知道源IP地址。2.Cookie解决http的无状态性,第一次向服务器发送请求时,服务器生成Cookie作为请求头...原创 2022-01-19 23:25:26 · 1403 阅读 · 0 评论 -
爬虫基础(1)
1.爬虫分类①通用网络爬虫:下载互联网上所有资源并爬取,如百度等搜索引擎。②聚焦网络爬虫/主题网络爬虫:选择性的爬取跟需求的主题相关的页面。③增量式网络爬虫:对已下载网页采取增量式更新知识和只爬取新产生或发生变化的网页爬虫。④深层网络爬虫:大部分内容不能通过静态的URL获取、隐藏在搜索表单后的、只有用户提交一些关键词才能获得的网络页面。2.HTTP与HTTPSHTTP(Hyper Text Transfer Protocal)协议:超文本传输协议,是一种发布和接收HTML页面的方法,原创 2022-01-15 09:23:36 · 356 阅读 · 0 评论 -
爬虫基础(2)
1.SessionSession代表服务器与浏览器的一次会话过程,是一种服务器端的机制,用来存储特定用户会话所需的信息。Session由服务器端生成,保存在服务器中。2.CookieCookie由服务器端生成并发给客户端,保存在客户端。当客户端第二次发送请求时,服务器会在请求头中读取Cookie。3.AjaxAjax在浏览器与Web服务器之间使用异步数据传输,这样可以使网页从服务器请求少量的信息,而不是整个页面。Ajax独立于浏览器和平台,对Ajax地址进行Post或get,返回原创 2022-01-16 10:48:31 · 533 阅读 · 0 评论