
Python
秋予暮
这个作者很懒,什么都没留下…
展开
-
02_Requests库
简介 Requests唯⼀的⼀个⾮转基因的 Python HTTP 库,⼈类可以安全享⽤。 中⽂⽂档 API: http://docs.python-requests.org/zh_CN/latest/index.html 开源地址:https://github.com/kennethreitz/requests 安装方式 pip install requests 快速入门 使⽤ requests...原创 2019-12-18 00:30:45 · 127 阅读 · 0 评论 -
01_Urllib库
所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有很多库可以用来抓取网页,我们先使用urllib 什么是Urllib Python内置的HTTP请求库 urllib.request 请求模块 urllib.error 异常处理理模块 urllib.parse url解析模块 urllib.robo...原创 2019-12-16 03:30:25 · 342 阅读 · 0 评论 -
00_爬虫基本原理
什么是爬虫 请求网站并提取数据的自动化程序 爬虫分类 通用爬虫:不分类,比如百度搜索引擎 聚焦爬虫:是“⾯向特定主题”的⼀种⽹络 爬⾍程序。它与我们通常所说的爬⾍(通⽤爬⾍)的区别之处就在于, 聚焦爬⾍在实施⽹⻚抓取时要进⾏主题筛选。它尽量保证只抓取与主题相关的⽹⻚信息 爬虫的设计思路 首先确定需要爬取的网页URL地址 通过HTTP/HTTPS协议来获取对应的HTML页面 提取HTML页面里有用...原创 2019-12-16 01:56:51 · 174 阅读 · 0 评论