一、在pycharm中运行scrapy的配置过程 1. 1)(env_scrapy) E:\project\python> cd E:\project\python\web_spider 2)创建模板:scrapy genspider jobbole blog.jobbole.com 3)pip install -i https://pypi.douban.com/simple pypiwin32 2.配置main文件,在根目录下新建main文件 from scrapy.cmdline import execute import sys import os #E:\project\python\web_spider sys.path.append(os.path.dirname(os.path.abspath(__file__))) execute(["scrapy", "crawl", "jobbole"]) 3.setings文件下的配置 # Obey robots.txt rules ROBOTSTXT_OBEY = False 二、数据抓取(页面:http://blog.jobbole.com/110287/) 1.xpath语法:http://www.w3school.com.cn/xpath/xpath_syntax.asp 2.由于scrapy每次在pycharm下启动很慢,所以采用shell脚本下运行,可以加快速度:scrapy shell http://blog.jobbole.com/110287/ 3.由于一个class中包含多个不同的属性,所以要使用contains函数来进行匹配 praise_num = response.xpath("//span[contains(@class,'vote-post-up')]/h10/text()").extract() 4.extract():获取属性值; strip() 方法用于移除字符串头尾指定的字符(默认为空格);