
pthon3爬虫实践
学习运用pthon3进行网络信息爬取
please tell me
在秃头的边缘挣扎
展开
-
python3爬虫实践(八)——lxml 库
lxml 库lxml 是一个 HTML/XML 的解析器,主要的功能是如何解析和提取 HTML/XML 数据。lxml 和正则一样,也是用 C 实现的,是一款高性能的 python HTML/XML 解析器,可以利用之前学习的 xpath 语法,来快速的定位特定元素以及节点信息。1、基本使用我们可以利用 lxml 来解析 HTML 代码,并且在解析 HTML 代码的时候,如果 HTM...原创 2020-04-08 10:49:20 · 267 阅读 · 0 评论 -
python3爬虫实践(七)——xpath介绍
xpath 介绍1、什么是 xpathxpath(XML Path Language)是一门在 XML 和 HTML 文档中查找信息的语言,可用来在 XML 和 HTML 文档中对元素和属性进行遍历。2、xpath 开发工具Chrome 插件 XPath HelperFirefox 插件 XPath Checker3、xpath 语法选取节点:xpath 使用路径表达式来选...原创 2020-04-07 21:19:12 · 241 阅读 · 0 评论 -
python3爬虫实践(六)——requests 库
requests 库虽然 python 的标准中,urllib 模块已经包含了平常我们使用的大多数功能,但是他的 API 使用起来让人感觉不太好,而 requests 宣传是“HTTP for Humans”,说明使用更方便。中文文档:http://docs.python-requests.org/zh_CN/latest/index.html1、发送 get 请求最简单的发送 ge...原创 2020-04-07 17:16:35 · 445 阅读 · 0 评论 -
python3爬虫实践(五)——使用 cookie 模拟登录
使用 cookielib 库和 HTTPCookieProcessor 模拟登录Cookie 是指网站服务器为了辨别用户身份和进行 Session 跟踪,而存储在用户浏览器上的文本文件,Cookie 可以保持登录信息到用户下次与服务器的会话。这里以人人网为列。人人网中,要访问某个人的主页,必须先登录才能访问,登录说白了就是要有 cookie 信息。那么如果我们想要用代码的方式访问,就必须要有...原创 2020-03-31 21:40:59 · 625 阅读 · 0 评论 -
python3爬虫实践(四)——cookie 原理和格式详解
cookie 原理和格式详解1、什么是 cookie在网站中,http 请求是无状态的。也就是说即使第一次和服务器连接后并且登录成功后,第二次请求服务器仍然不知道当前请求是哪个用户。cookie 的出现就是为了解决这个问题,第一次登录后服务器返回一些数据(cookie)给浏览器,然后浏览器保存到本地,当用户发送第二次请求的时候,就会自动的把上次请求存储的 cookie 数据自动的携带给服务器...原创 2020-03-31 16:15:45 · 666 阅读 · 0 评论 -
python3爬虫实践(三)——urllib 库
urllib 库urllib 库是 python 中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。1、urlopen 函数在 python3 的 urllib 库中,所有和网络请求有关的方法,都被集到 urllib.request 模块下了,下面看下 urlopen 函数基本的使用:from urllib import req...原创 2020-03-31 11:38:10 · 242 阅读 · 0 评论 -
python3爬虫实践(二)——爬虫前奏
一、爬虫前奏1.1:什么是网络爬虫通俗理解:爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并将数据抓取下来,然后使用一定的规则提取有价值的数据。专业介绍:百度百科1.2:通用爬虫和聚焦爬虫通用爬虫:通用爬虫是搜索引擎抓取系统(百度、谷歌等)的重要组成部分。主要是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。聚焦爬虫:是面向特定需求的一种网络爬虫程序,他与通用...原创 2020-03-30 16:33:03 · 221 阅读 · 0 评论 -
python3爬虫实践(一)——python3基本知识之文件与数据库存储
python3基本知识1. 数据类型python 中常见的数据类型有数、字符串、列表(list)、元组(tuple)、集合(set)、字典(dictionary)。除此之外,还可以自己自定义数据类型(自定义类)。数普通的数,比如1、2…字符串双(单)引号引起来的数据列表用“[]”表示,多个元素之间用逗号隔开,取值用下标表示,下标从 0 开始;列表的元素是可...原创 2020-03-26 16:26:17 · 580 阅读 · 0 评论