Scrapy:抓取返回数据格式为JSON的网站内容

最新推荐文章于 2022-09-19 18:08:48 发布

中国风2012

最新推荐文章于 2022-09-19 18:08:48 发布

阅读量6.4k

点赞数 1

分类专栏： python

python 专栏收录该内容

11 篇文章

订阅专栏

本文介绍如何使用Scrapy爬虫框架解析从网站获取的JSON格式数据，并提供了一个简单的示例代码来展示如何提取所需的字段。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

有些网站的数据是通过ajax请求获取的，或者提供了json格式的api。

比如对于如下的数据：

[javascript]view plaincopy 
   
 {  
         {  
             "url": "http://www.techbrood.com/news/1",  
             "author": "iefreer",  
             "title": "techbrood Co. test 1"  
         },  
         {  
             "url": "http://www.techbrood.com/news/2",  
             "author": "ryan.chen",  
             "title": "techbrood Co. test 2"  
         }  
 }  

在Scrapy里，只要简单改写下parse函数就行：

[python]view plaincopy 
   
 def parse(self, response):  
     sites = json.loads(response.body_as_unicode())  
     for site in sites:  
         print site['url']