
爬虫
文章平均质量分 75
killuaZold
这个作者很懒,什么都没留下…
展开
-
【1】基于python的网路爬虫笔记
1.urllib包Urllib是一个收集多个模块以使用URL的包,有一下模块:urllib.request 用于打开和读取URL urllib.error 包含urllib.request引发的异常 urllib.parse 用于分析URL urllib.robotparser 用于分析robots.txt文件本章介绍urllib.request中简单方法1.1urllib.r...原创 2019-01-24 17:58:55 · 250 阅读 · 0 评论 -
【2】基于python的网路爬虫笔记(代理)
上一章讲了urllib.request.Request与urllib.request.urlopen方法,如何使用这两个函数访问URL,并提交data注:本章将介绍如何使用代理访问目标URL,防止在爬虫时一个IP短时间内多次访问服务器,而被服务器ban掉,仍然是属于urllib.request模块中的方法,因此以下仍然从urllib.request开始。1.1urllib.request模...原创 2019-01-26 00:29:01 · 241 阅读 · 0 评论 -
【2】基于python的网路爬虫笔记(实战)
上一章讲了如何通过使用pyhthon的方法实现代理访问,这一章讲进行实战,比一个网站的图片自动化下载下来目标网站:自己寻找任何一个图片网站,下面直讲解方法1.分析网站元素,通过浏览器的审查元素查看 首先每张图片都有一个指向这组图的链接,要获取这个链接添加都一个列表里,然后在一个个遍历去下载对应链接里的图片,这里用get_page_num_1(url)来处理 进到每组图里,不会一页...原创 2019-01-27 17:54:29 · 715 阅读 · 0 评论 -
【4】基于python的网路爬虫笔记(HTTP请求的各个关键字)
上一章讲到如何实战,下载图片,这一章来讲一些理论但却必须知道的东西。(摘自《python3 网络爬虫开发实战》)1 . 请求方法 常见的请求方法有两种 :GET 和 POST。 在浏览器中直接输入 URL 井回车,这便发起了一个 GET 请求,请求的参数会直接包含到 URL 里。 例如,在百度中搜索 Python,这就是一个 GET请求,链接为 htψs://www.baidu.co...原创 2019-01-28 14:44:52 · 586 阅读 · 0 评论