
Python 基础
文章平均质量分 93
HUANG Zichen
人生若只如初见
展开
-
Python3.X网络爬虫学习(一)
刚刚研一,导师要求我开始学习Python网络爬虫,于是结合《精通Python网络爬虫:核心技术、框架与项目实战》和各种博客对比学习,开始真正接触网络爬虫。 关于Python的入门基础可以参考MOOC上的课程,简单易懂,也有相应的练习和资料,在此不加赘述。 我用的IDE是PyCharm,然后下载了Anaconda作为管理环境资源的工具。 一、什么是网络爬虫 网络爬虫又称网络蜘蛛、网络机器人等...原创 2018-09-04 19:32:33 · 795 阅读 · 0 评论 -
Python3.X网络爬虫学习(二)
一、HTTP协议请求实战 如果要进行客户端与服务器端之间的消息传递,我们可以使用HTTP协议请求进行。 GET请求:GET请求会通过URL网址传递信息,可以直接在URL中写上要传递的信息,也可以由表单进行传递。如果使用表单进行传递,表单中的信息会自动转化为URL地址中的数据,通过URL地址传递。 POST请求:可以向服务器提交数据,是一种比较主流也比较安全的数据传递方式,比如在登录时,经常使...原创 2018-09-05 16:15:13 · 427 阅读 · 0 评论 -
Python3.X网络爬虫学习(五)
利用Scrapy框架对豆瓣电影排行榜相关数据进行爬取 从上一节中我们知道了scrapy框架和shell指令的测试功能,以及scrapy项目的文件构成。今天利用框架写一个简单的爬虫,将豆瓣电影上的排名、电影名、评分和评价人数获取下来,并保存在表格文件中。 一、Items的编写 使用Scrapy中的Item对象可以保存爬到的数据,相当于存储爬取到的数据的容器。一般来说,网页中的信息基本上都是非结...原创 2018-09-08 16:24:42 · 728 阅读 · 0 评论 -
Python3.X网络爬虫学习(三)
什么是Cookie 由于HTTP协议是无状态的(无法维持会话之间的状态),而服务器端的业务必须是要有状态的。Cookie诞生的最初目的是为了存储web中的状态信息,以方便服务器端使用。比如判断用户是否是第一次访问网站,假如登录成功,但是当我们访问该网站的其它网页时,该登录状态就会消失,此时还需要再登录一次,这时非常不方便的。 因此我们就需要将对应的会话信息保存下来,常用的方式有两种:通过Coo...原创 2018-09-06 15:09:55 · 292 阅读 · 0 评论 -
Python3.X网络爬虫学习(四)
一、Scrapy 什么是Scrapy Scrapy框架是一套比较成熟的Python爬虫框架,是使用Python开发的快速、高层次的信息爬取框架,可以高效率地爬取Web页面并提取出我们关注的结构化数据。 为什么学习Scrapy呢?因为它能让我们更好地完成爬虫任务,自己写Python爬虫程序好比孤军奋战,而使用了Scrapy就好比手下有了千军万马,可以起到事半功倍的效果。所以,学习Scrapy也...原创 2018-09-06 19:44:50 · 407 阅读 · 0 评论 -
Python3.X网络爬虫学习(七)-图片类爬虫项目实战
在本篇文章中,我以图片类爬虫项目为例,讲解如何通过Scrapy框架实现图片爬虫项目。 一、功能分析 假如我们现在需要做一个图片设计或者需要将互联网上的一些图片进行分析和参考,需要下载互联网中的一些素材,此时若通过互联网一个一个网页地打开查看或者一个一个地下载,这样会比较麻烦,这种情况下我们就可以将相应网站中相关栏目下的素材图片全部爬到本地使用。 在本项目中,主要需要实现的功能有: 获取目标...原创 2018-09-12 14:56:59 · 1244 阅读 · 0 评论 -
Python3.X网络爬虫学习(六)
Scrapy的中文输出与存储 一、什么是json json是一种在编程中常用的数据格式,属于一种轻量级的数据交换格式。json数据常见的基本存储结构有数组和对象两种。 数组结构的存储方式: ["苹果","梨子","葡萄"] 这种数组结构的存储方式,对应的值是通过索引的方式进行获取的,对应关系为:0->"苹果",1->"梨子",2->"葡萄&quo原创 2018-09-10 18:57:43 · 297 阅读 · 0 评论