
scrapy
净心净意
这个作者很懒,什么都没留下…
展开
-
爬京东整站遇坑记(一)
我是从首页开始爬取的,首先就是获取京东首页里的商品类别的链接,我这里就讲我在获取链接中遇到的问题 1、京东商品类的链接是动态加载的,所以不能直接爬取。需要调取网页调试工具,然后切换到network窗口,然后再搜索框中输入:list.jd.com,就可以很幸运的获得动态链接的地址,动态链接是json数据格式。 2、在解析动态链接过程中,json数据中包含有list格式的值,是京东把子类别以字典的形式存放。以下是解析json数据的代码。 def parse_first_page_url(urls):原创 2020-06-11 16:42:51 · 187 阅读 · 0 评论 -
scrapy爬虫:pycharm调试
接上篇文章:爬京东整站:创建项目 在jd\jd目录下,创建main.py文件 然后在main.py写入以下代码 import sys import os from scrapy.cmdline import execute sys.path.append(os.path.dirname(os.path.abspath(file))) execute([“scrapy”, “crawl”, “product_data”]) **注意:**execute([“scrapy”, “crawl”, “produ原创 2020-06-10 23:59:10 · 386 阅读 · 0 评论 -
scrapy爬虫:创建项目
cd 到存放项目目录 scrapy startproject jd cd jd 创建虚拟环境: virtualenv env 启动虚拟环境: cd env/Scripts && activate && cd …/…/ 在jd目录,创建新文件requirements.txt,用于存放需要用到的库名,以便下载安装。 安装requirements.txt中的库,这里指定阿里云为安装源 pip install -r requirements.txt -i https://mi原创 2020-06-10 23:44:01 · 242 阅读 · 0 评论