首先分析网页接口,在搜索框搜索关键字java后,在network中查看接口,可以找到这个接口
接口中的返回值即是我们需要的数据,我们就不用去分析网页html代码了。
创建项目
scrapy startproject csdnSpider
创建爬虫
scrapy genspider search_spider "csdb.net"
爬虫代码
import json
import scrapy
from csdnSpider.items import CsdnspiderItem
import re
class searchSpider(scrapy.Spider):
name = 'search_spider'
# allowed_domains = ['youkuaiyun.com']
# start_urls = ['http://youkuaiyun.com/']
rec=re.compile(r'<em>|</em>')
url='https://so.youkuaiyun.com/api/v2/search?q=python&t=all&p={}&s=0&tm=0&lv=-1&ft=0&l=&u=&platform=pc'
def start_requests(self):
#开启多个线程 爬取多页
for i in range(1,5,1):
url=self.url