
爬虫学习笔记
文章平均质量分 69
Kamin_H
这个作者很懒,什么都没留下…
展开
-
天蛛爬虫学习笔记——Requests爬虫实例
天蛛爬虫学习笔记——Requests爬虫实例定义一个爬虫的通用框架import requestsdef getHTMLtext(url): """ 爬虫通用框架, """ try: #捕捉到错误后会执行except的语句 r=requests.get(url) r.raise_for_status()# 返回值若为200,...原创 2020-04-21 23:22:15 · 187 阅读 · 0 评论 -
天蛛爬虫学习笔记——盗亦有道
天蛛爬虫学习笔记——盗亦有道爬虫应该遵循网络协议,有些网站中有Robots协议需要遵守,查看某个网站的Robots协议在对应的URL后加robots.txt,例如:https://www.youkuaiyun.com/robots.txt。 构造一个请求,支撑一下各方法的基础方法,method包括下列的几个方法1.2、get(),获取HTML网页的主要方法1.3、 head()获取HTML网页头信息1.4、post()向HTML网页提交POST请求1.5、put()向HTML网页提交PUT请求,会全部...原创 2020-04-21 21:58:12 · 144 阅读 · 0 评论 -
天蛛爬虫学习笔记——HTML基础知识
天蛛爬虫学习笔记——HTML基础知识1、HTML:HTML 是用来描述网页的一种语言,其全称叫作 Hyper Text Markup Language,即超文本标记语言Chrome中按F12跳出的Elements页面就是HTML,通过标签和嵌套可以构成网页的框架。2、CSS,全称叫作CascadingStyleSheets,即层叠样式表。“层叠”是指当在HTML中引用了数个样式文件,并且样式...原创 2020-04-21 21:30:44 · 186 阅读 · 0 评论 -
天蛛爬虫学习笔记——HTTP基础知识
天蛛爬虫学习笔记——HTTP基础知识1.URI、URL、URN的关系URI全称为 Uniform Resource Identifier,即统一资源标志符,URL 的全称为 Universal Resource Locator,即统一资源定位符,URN全称为 Universal Resource Name,即统一资源名称。其中URL和URN都是URI的子集,由于URN只定义名称没有标记位置,所...原创 2020-04-21 20:58:08 · 197 阅读 · 0 评论