Python学习笔记(19)自动搜索关键词采集信息—以京东为例

Python自动搜索关键词采集京东信息

最新推荐文章于 2024-05-21 17:48:35 发布

原创

最新推荐文章于 2024-05-21 17:48:35 发布 · 1.6k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#Python #爬虫 #数据挖掘

本文通过Python网络爬虫工具集搜客，演示如何设置连续动作自动搜索关键词并在京东采集商品信息。教程涵盖从定义规则、设置连续动作、创建二级规则到抓取数据的全过程。

一、操作步骤

如果网页上有搜索框，但是搜索结果页面没有独立网址，想要采集搜索结果，直接做规则是采集不到的，要先做连续动作（输入+点击）来实现自动输入关键词并搜索，然后才能采集数据。下面用京东搜索为例，演示自动搜索采集，操作步骤如下：

二、案例规则+操作步骤

第一级采集规则：连续动作_京东搜索
第二级采集规则：京东空调列表
样本网址：https://list.jd.com/list.html?cat=737,794,870
采集内容：京东商品的名称、价格、链接

**注意：**本案例京东搜索是有独立网址的，对于具有独立网址的页面，最简单的方法就是构造出每个关键词的搜索网址，然后把线索网址导入到规则里，就可以批量采集，而不是设置连续动作

第一步：定义第一级规则

1.1打开集搜客网络爬虫，输入网址并Enter，加载出网页后再点击“定义规则”按钮，看到一个浮窗显示出来，称为工作台，在上面定义规则；

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Python老王

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

《Python全栈系列教程》专栏介绍及文章汇总

孤寒者的博客

05-12

71万+

《Python全栈系列教程》专栏介绍及文章汇总

Python爬虫学习手册

资源小站

04-05

3228

like:128-Python 爬取落网音乐 like:127-【图文详解】python爬虫实战——5分钟做个图片自动下载器 like:97-用Python写一个简单的微博爬虫 like:87-爬虫抓取拉勾网职位需求关键词，并生成统计图 like:87-Python爬虫实战（2）：爬取京东商品列表 like:85-python爬虫入门(1):爬万本书籍 like:73-Python爬虫...

参与评论您还未登录，请先登录后发表或查看评论

Python实现答题的自动搜索

01-18

Python实现答题的自动搜索Python实现答题的自动搜索Python实现答题的自动搜索Python实现答题的自动搜索

Python自动化搜索

南枫_Y的博客

05-04

2008

自动进行简单搜索并选择

利用Python自动搜索

weixin_30550271的博客

03-21

197

import webbrowser, sys, pyperclipif len(sys.argv) > 1: address = ' '.join(sys.argv[1:]) #webbrowser.open('http://m')else: address = pyperclip.paste()#从粘贴板中获取搜索内容webbrowser.open('https://ww...

python 自动化搜索自动化测试

笑笑的博客

01-13

653

项目源码：https://github.com/yicaifenchen8/autosearch.git 1.打开百度 driver = webdriver.Chrome() driver.maximize_window() #浏览器全屏显示 driver.get("https://www.baidu.com/") 2.输入搜索内容 find('//*[@id="kw"]').se...

python selenium库实现浏览器的自动搜索

weixin_45925443的博客

05-25

1995

python selenium库实现浏览器的自动搜索 1. selenium介绍 selenium 是一个免费的分布式的自动化测试工具，支持多平台（windows，linux，mac）；多浏览器支持多浏览器：ie、ff、safari、opera、chrome等，几乎支持所有主流的浏览器；多语言C、 java、ruby、python、C#；Selenium测试直接运行在浏览器中，就像真正的用户在操作一样" 详细请访问：selenium中文网或者相关的selenium教程：Selenium Python 2.

个性化视频推荐系统的设计与实现(python实现)

最新发布

lazycatlove的博客

05-21

2307

PyCharm 是 JetBrains 公司开发的一款商业的 Python 集成开发环境，如图 2.1,编写代码会给出提示，不同的语法颜色不同，例如关键字，字符串等字体颜色不一样，并且集成版本控制管理工具，对开发人员的操作提供便利，最主要的是有调式功能，对每一个开发人员，调式是开发人员必备技能，很快能定位到错误的位置或者能深入的了解程序运行的过程。我们的系统是基于 Web 的，该编辑器还支持 Web 开发。图 2.1 PyCharm 工作平台。

(个人笔记)Django学习笔记整理

兜率宫

12-22

1356

‘@’ 为遗漏点或者难点 ‘#’ 为重点标记 '若有打眼,欢迎自取,错误之处,还请指教 DAY 11.24 @ url统一资源定位符限定有2到4kb 因为浏览器地址栏里只能输入这么多东西 1，MVT 2，观看中文文档 3，学习重点视图模型 4，i课件回顾。 5，新建项目，在pycharm里新建项目选择django框架...

用python的selenium实现自动化搜索

Joeyzhouzuo的博客

06-01

1853

嘿嘿，今天我来交给大家爬虫基础中的基础！！来看看吧对于爬虫的话，我个人常用的浏览器是Google Chrome浏览器。谷歌浏览器想要使用Python实现简单的爬虫，需要下载chromedriver以下是下载的网址： http://chromedriver.storage.googleapis.com/index.html 首先我们需要先查看Google Chrome的版本为什么要看这个版本呢，是因为我们的chromedriver是必须与我们的Google chrome的版本相同才能够运行的。不是相

python实现批量查找.py文件中的关键词

11-19

阅读源码时，在茫茫多的py文件中根据关键词迅速定位到你想要的代码处。

爱站关键词采集程序

03-09

Python从爱站批量爬取指定网站关键词列表限制收录个数

python 爬虫入门——selenium自动搜索小团团

ailuoyi521的博客

06-16

696

这几天想到哪里写哪里，有可能有点乱。今天写一个selenium——WEB自动化工具，用来模拟操作人在运行浏览器。在爬虫中，可以作为一个自动化脚本来使用。先看一下先不说具体应用，大家也会觉得还是很有意思的对不对。 from selenium import webdriver import time driver = webdriver.Chrome() driver.get("http://www.baidu.com") #输入小团团露脸视频 driver.find_element_by_id("

利用Python自动化打开搜索引擎进行关键词搜索的技巧

效率工具，软件测试，实用干货，资源分享，这里全是黑科技。

04-20

1563

本文将介绍如何利用Python编写一个简单的脚本来实现这一目标。将上述代码保存为一个Python脚本文件（例如 `open_browser_search.py`），然后在命令行中导航到脚本文件所在的目录，运行命令 `python open_browser_search.py`。通过编写一个简单的Python脚本，我们实现了自动化打开浏览器并进行关键词搜索的功能，极大地提高了搜索效率。通过这篇博客论文，读者可以了解到如何使用Python编写一个简单的自动化脚本来打开浏览器并进行关键词搜索，从而提高工作效率。

用Python打造一款文件搜索工具，所有功能自己定义

AI科技大本营

09-02

3350

前言在日常的办公中，我们经常会从一堆不同格式的文件(夹)中搜索特定的文件，可能你是凭着记忆去找或是借助软件，但你有想过如何用Python实现吗？本文将基于几个常见的搜索操作讲解。扫描路径...

python url编码_python爬虫之关键信息爬取

weixin_39848347的博客

11-29

207

点击上方蓝字关注我财乃天地至公之物，假手于人罢了，雨打残花风卷流云。轮番更转而已，穷转富，富转穷，哪有百世富家翁？郭德纲前言网上找的一个案例自己再次复现，加上自己的理解和记录过程中遇到的一些小问题，当巩固基础。附上原案例出处链接：https://bbs.ichunqiu.com/thread-40908-1-1.html实验对象如上，目录下有全国所有的城市，点击每一个城市的链接进去都会有...

python3+selenium之自动化测试学习笔记之一——验证百度搜索结果

joey_2018_的博客

07-05

2741

selenium的学习主要来自以下两个博客，自己写一下是为了能进一步加深记忆。https://www.cnblogs.com/yoyoketanghttps://blog.youkuaiyun.com/u011541946/article/category/6788788

手把手教你使用Python打造一个智能搜索淘宝商品，生成操作日志的系统

菜鸟学识的博客

05-18

792

2、老样子，F12 ,因为我们要找的是店铺的商品链接，所以我们尽可能找多的商品，从店铺的布局来看，好像就宝贝推荐这个板块的商品较多，所以，我们今天就爬这个板块内的所有内容。要想一键搜索淘宝商品首先我们的找到淘宝的搜索地址，然后在进行get请求，给他传不同的值即可。通过Python程序一键搜索并直达目的地，爬取淘宝商品链接，商品名称，及商品的图片链接，并将每次的操作记录在日志文件里。这样我们就轻松获取到了，商品的链接，商品名，商品图片链接，然后将他们分别保存在aa，bb，cc列表中。最后就是关闭程序了。

python四级词汇采集_python+NLTK 自然语言学习处理四：获取文本语料和词汇资源

weixin_29587015的博客

01-29

326

在前面我们通过fromnltk.bookimport*的方式获取了一些预定义的文本。本章将讨论各种文本语料库1古腾堡语料库古腾堡是一个大型的电子图书在线网站，网址是http://www.gutenberg.org/。上面有超过36000本免费的电子图书，因此也是一个大型的预料库。NLTK也包含了其中的一部分。通过nltk.corpus.gutenberg.fileids()就可以查看包含了...

Python学习笔记（中文版）

Python学习笔记（中文版）是一份专为中文用户量身打造的Python编程语言学习资料，内容涵盖了Python语言的基础语法、核心特性以及常见应用领域，适合初学者和有一定编程经验的开发者系统性地掌握Python语言。...