python爬虫了解第一篇

本文介绍了网络爬虫的基本概念及应用场景,包括搜索引擎的关键字匹配、电商价格比较等,并概述了通用爬虫与聚焦爬虫的区别。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬虫开始

爬虫的实际例子

  • 搜索引擎:关键字匹配提取,前提是要将所有的页面爬一遍,然后存到自己的服务器,当用户惊醒搜索的时候,根据自己的搜索内容,搜索引擎将用户搜索信息返回给用户。
  • 伯乐在线: 文章的搬运工(http://www.jobbole.com/
  • 惠惠购物助手: 谷歌插件,爬到电商平台的价格对比。
  • 数据分析与研究: 某一行业的数据分析(基于实际的数据分析),数据冰山&舆情分析&数据可视化
  • 抢票软件:模拟人点击的操作。

什么是网络爬虫

  • 通俗理解就是: 一个模拟人请求网站的程序,可以自动请求网页并将所定义需求的数据抓取下来,然后提取有价值的数据。

通用爬虫和聚焦爬虫

  • 通用爬虫:类似于搜索引擎抓取系统的重要组成部分。主要将网页信息下载到搜索引擎存储,形成一个互联网内容的镜像备份
  • 聚焦爬虫: 面向特定需求的一种爬虫。会将爬去到的信息进行筛选和处理

准备工具

  • Python3+
  • Pycharm Professional
  • 虚拟环境
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值