用Python爬取WordPress官网所有插件

本文介绍如何使用Python的Scrapy框架爬取WordPress官网的所有插件信息。从WordPress SVN找到插件列表,利用API获取插件详情,讨论了在存储过程中遇到的问题以及解决方案,并提供了一个简单的Scrapy爬虫示例。文章最后预告了后续的数据分析部分。

转自丘壑博客,转载注明链接

前言

只要是用WordPress的人或多或少都会装几个插件,可以用来丰富扩展WordPress的各种功能。围绕WordPress平台的插件和主题已经建立了一个独特的经济生态圈和开发者社区,养活了众多的WordPress相关的开发公司和开发者。各种强大的WordPress插件也层出不穷,有的甚至可以做出功能完善的网站,比如招聘网站、分类信息网站、电商网站、点评网站、培训网站等等,令我赞叹不已。

最近一直沉迷于研究 WordPress,仿佛事隔多年与初恋情人再续前缘一般陷入热恋。这几天突发奇想把WordPress上这么多眼花缭乱的插件都爬下来,看看能不能分析出一点有意思的东西来。

总体思路

官网插件的页面 https://wordpress.org/plugins/ 上列出了一共有 54,520 个插件。记得以前在官网上可以按各种分类浏览的,现在只有推荐的插件、收藏的插件、流行的插件几大类显示出来,其他的好像只能靠人肉搜索了。其实挺不方便的。

那么首先第一步我们要知道取哪里可以找到所有的WordPress插件列表,搜了一圈发现WordPress的svn上有这个完整的列表, http://plugins.svn.wordpress.org/ (这个网页比较大,5M多,慎点),比官网上的还要齐全,一共7万多个。有了完整列表就好办了。

 

接下来就是要获取的是插件的各种信息,比如作者、下载量、评分等等。这个可以去哪里获取呢?当然最傻的办法就是根据上面列表中的插件地址,把每个插件的网页down下来再提取,这也就是爬虫干的事。不过 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值