python爬虫了解第一篇

转载于 2018-05-05 02:18:24 发布 · 61 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://segmentfault.com/a/1190000014733464

文章标签：

#爬虫 #python #开发工具

本文介绍了网络爬虫的基本概念及应用场景，包括搜索引擎的关键字匹配、电商价格比较等，并概述了通用爬虫与聚焦爬虫的区别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

爬虫开始

爬虫的实际例子

搜索引擎：关键字匹配提取，前提是要将所有的页面爬一遍，然后存到自己的服务器，当用户惊醒搜索的时候，根据自己的搜索内容，搜索引擎将用户搜索信息返回给用户。
伯乐在线：文章的搬运工（http://www.jobbole.com/）
惠惠购物助手：谷歌插件，爬到电商平台的价格对比。
数据分析与研究：某一行业的数据分析（基于实际的数据分析），数据冰山&舆情分析&数据可视化
抢票软件：模拟人点击的操作。

什么是网络爬虫

通俗理解就是：一个模拟人请求网站的程序，可以自动请求网页并将所定义需求的数据抓取下来，然后提取有价值的数据。

通用爬虫和聚焦爬虫

通用爬虫：类似于搜索引擎抓取系统的重要组成部分。主要将网页信息下载到搜索引擎存储，形成一个互联网内容的镜像备份
聚焦爬虫：面向特定需求的一种爬虫。会将爬去到的信息进行筛选和处理

准备工具

Python3+
Pycharm Professional
虚拟环境

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。