爬虫实战:用PHP爬取京东商品信息

在当今的电商时代,京东作为中国最大的综合电商之一,每日上架的商品数量甚至可以达到数万种。对于广大的消费者来说,京东提供了广泛的商品选择和优势的价格优惠。但是,有些时候,我们需要批量获取京东商品信息,快速筛选、比较、分析等等。这时候,我们就需要用到爬虫技术了。在本篇文章中,我们将会介绍利用php语言编写爬虫,帮助我们快速爬取京东商品信息的实现。

1.准备工作

首先,我们需要安装php所需的curl扩展,并设置一些常用的变量。具体步骤如下:

首先,打开终端或powershell,输入以下命令来安装curl扩展包:

1

sudo apt-get install php7.0-curl //ubuntu系统安装

1

brew install curl-openssl php-curl //macOS系统安装

接着,我们需要在PHP的代码中设置一些简单的变量,方便我们在后续的代码中使用。比如,我们定义一个$jgname变量表示京东的访问地址,另一个$skulist变量表示每个商品的访问地址。代码如下:

1

2

$jgname= "https://list.jd.com/list.html?cat=1318,1486,1490&ev=exbrand_13910&sort=sort_rank_asc&trans=1&JL=3_%E5%93%81%E7%89%8C_%E5%B0%8F%E7%B1%B3%EF%BC%88MI%EF%BC%89#J_crumbsBar";

$skulist="https://item.jd.com/1285310.html";

2.获取商品列表

现在我们已经准备完了环境和需要的变量,我们可以开始编写我们的爬虫了。首先,我们需要获取目标京东商品页面的商品列表。我们可以根据,京东商品页的访问地址(即$jgname),利用curl的工具和正则表达式来获取目标链接。分别获取价格、评论数、商品名称、商品编号等等商品信息。

具体代码如下:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

$ch = curl_init();//初始化curl

curl_setopt($ch, CURLOPT_URL,$jgname);//设置url属性

curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);//设置是否将curl_exec()获取的信息以字符串返回,而不是直接输出

$result = curl_exec ($ch);//执行一个curl会话

curl_close ($ch);//关闭curl会话

preg_match_all("/<li .*?</li>/", $result, $matches);//正则表达式把需要的内容取出来,即匹配<li>标签

$goodsinfo=array();//创建一个商品列表

foreach ($matches[0] as $item) {

    //获取商品信息

    preg_match("/sku="(d+)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值