学习python爬虫(scrapy模块),首先准备python环境,安装第三方包scrapy
(mac环境可参考:https://blog.youkuaiyun.com/qq_42512064/article/details/80982470),准备好环境后,从第一个简单的爬虫程序开始吧!
一、简介:爬虫就是获取网页的数据,获取简单的数据容易,解析其中的数据拿到自己想要的却不那么容易,大家都知道网页是有很多元素组成:<div>、<p>、<h>、<a>等,每一种元素都有很多个,通过什么去识别这些元素呢,scrapy提供两种方式,xpath和css,从字面上理解,xpath就是通过元素在网页中的路径去识别元素(下表为xpath中路径表达式列表)。
二、爬淘宝的一丢丢数据
1、淘宝页面(爬取下图框框中的数据)
2、页面右键“查看源代码”
3、完整代码先贴在这里
#coding:utf-8 import urllib2 # import platform from scrapy.selector import Selector resp = urllib2.urlopen('https://www.taobao.com/', timeout=3) # my_os = platform.system() # print 'my_os: