Python自动搜索关键词采集信息—以京东为例！

最新推荐文章于 2025-07-28 21:20:40 发布

原创

最新推荐文章于 2025-07-28 21:20:40 发布 · 1.2k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文通过一个案例介绍了如何使用Python进行自动搜索关键词并在京东网站上采集商品信息。步骤包括定义规则、设置连续动作、创建输入和点击动作、定义二级规则以及抓取数据。通过集搜客网络爬虫工具，实现了从搜索到采集的自动化过程。

一、操作步骤

如果网页上有搜索框，但是搜索结果页面没有独立网址，想要采集搜索结果，直接做规则是采集不到的，要先做连续动作（输入+点击）来实现自动输入关键词并搜索，然后才能采集数据。下面用京东搜索为例，演示自动搜索采集，操作步骤如下：

二、案例规则+操作步骤

第一级采集规则：连续动作_京东搜索
第二级采集规则：京东空调列表
样本网址： https://list.jd.com/list.html?cat=737,794,870
采集内容：京东商品的名称、价格、链接

注意：本案例京东搜索是有独立网址的，对于具有独立网址的页面，最简单的方法就是构造出每个关键词的搜索网址，然后把线索网址导入到规则里，就可以批量采集，而不是设置连续动作

第一步：定义第一级规则

1.1打开集搜客网络爬虫，输入网址并Enter，加载出网页后再点击“定义规则”按钮，看到一个浮窗显示出来，称为工作台，在上面定义规则；

注意：这里的截图和文字说明都是集搜客网络爬虫版本，如果您安装的是火狐插件版，那么就没有“定义规则”按钮，而是应该运行MS谋数台

1.2在工作台中输入一级规则的主题名，再点击“查重”，提示“该名可以使用”或“该名已被占用，可编辑：是”，就可以使用这个主题名，否则请重命名。

1.3本级规则主要是设置连续动作，所以，整理箱可以随意抓取一个信息，用来给爬虫判断是否执行采集。双击网页上的信息，输入标签名，并打勾确认，再勾上关键内容，首次标注还要输入整理箱的名字，然后就完成标注映射了。

Tips：为了能准确定位网页信息，点击定义

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。