一、环境准备
python3.8.3
pycharm
项目所需第三方包
pip install scrapy fake-useragent requests virtualenv -i https://pypi.douban.com/simple
1.1创建虚拟环境
切换到指定目录创建
virtualenv .venv
创建完记得激活虚拟环境
1.2创建项目
scrapy startproject 项目名称
1.3使用pycharm打开项目,将创建的虚拟环境配置到项目中来
1.4创建京东spider
scrapy genspider 爬虫名称 url
1.4 修改允许访问的域名,删除https:
二、问题分析
查看网页响应的数据
发现返回的数据在json中
查看请求的网址
打开网址查看数据
拿到详情页请求地址,获取详情页数据,分别获取学校名称、学校邮箱、学校电话、学校电话、学校地址、学校邮编、学校网址
学校名称
学校邮箱
学校电话
学校地址
学校邮编
学校网址
三、spider
import json
import scrapy
from lianjia.items import china_school_Item
class ChinaSchoolSpider(scrapy.Spider):
name = 'china_school'
allowed_domains = ['api.eol.cn', 'static-data.eol.cn']
start_urls = ['https://api.eol.cn/gkcx/api/?access_token=&admissions=¢ral=&department=&dual_class=&f211=&f985=&is_doublehigh=&is_dual_class=&keyword=&nature=&page=1&province_id=&ranktype=&request_type=1&school_type=&signsafe=&size=20&sort=view_total&top_school_id=&type=&uri=apidata/api/gk/school/lists']
def parse(self, response):
jsons = json.loads(response.text)
ls = jsons.get