用Python写爬虫——初体验

最新推荐文章于 2024-10-24 00:02:41 发布

菜鸟程序员也有梦想

最新推荐文章于 2024-10-24 00:02:41 发布

阅读量421

点赞数

CC 4.0 BY-SA版权

分类专栏： python Python爬虫笔记文章标签：爬虫

本文链接：https://blog.youkuaiyun.com/u013977285/article/details/79701693

python 同时被 2 个专栏收录

7 篇文章

订阅专栏

Python爬虫笔记

2 篇文章

订阅专栏

本文介绍了作者使用Python进行爬虫开发的初次体验，包括选择Python作为开发语言的原因、爬虫的基本概念及其分类，并通过爬取百度首页的例子展示了爬虫的具体实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

用Python写爬虫初体验

写在前边的话，首先问问自己为什么想写爬虫？
我的回答: 也许是喜欢吧。想用Python做点有用的事情，比如：爬个天气呀，爬个各个快递公司的电话呀、爬个电影网站啊，等等。

学习爬虫之前必须要了解的知识
- python基础，这里有我学Python的记录
- 什么是爬虫？简单的说就是通过程序爬取网页上的信息。
- 爬虫的分类：爬虫可分为 通用爬虫 和 聚焦爬虫 两种.点击查看详细。这里我们重点关注的是聚焦爬虫

爬取百度首页

万事开头难，先从简单的开始做吧。

import urllib2
req = urllib2.Request("http://www.baidu.com")
res = urllib2.urlopen(req)
print res.code # 打印状态码
print res.read()# 打印响应体

这是在控制台显示的内容。
这里写图片描述
然后用浏览器打开百度首页，右键查看源代码。

仔细看看两张图，是不是有一样的地方。
没错，这就是通过python抓取的百度首页。由于显示行数较多，只截取了头几行。

关于HTTP状态码的资料

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

菜鸟程序员也有梦想

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

100天精通Python（爬虫篇）——第112天：‌爬虫到底是违法还是合法呢？（附上相关案例和法条）

努力让自己发光，对的人才能迎着光而来

12-16

10万+

100天精通Python（爬虫篇）——第112天：‌爬虫到底是违法还是合法呢？（附上相关案例和法条）

Python网络爬虫——我的第一个爬虫（爬取郑州未来一周天气预报）

zyw644451的博客

03-28

1290

第一次爬虫体验前言首先感谢https://blog.youkuaiyun.com/bo_wen_/article/details/50868339，让我在详细的介绍下完成了第一次爬虫的体验，在中国天气网上爬取了郑州一周的天气预报开始 1.首先是 # coding : UTF-8 告诉编译器这个Python程序是UTF-8编码，可以识别中文 2.程序中引用的包 import r...

参与评论您还未登录，请先登录后发表或查看评论

利用Python爬虫实现物流快递信息查询，简单易学

Python_sn的博客

11-03

2838

希望你拼命争取的，最后都能如你所愿。文章目录一、分析网页二、python代码实现 1. selenium爬虫实现查询 2. requests爬虫实现查询一、分析网页很多人学习python，不知道从何学起。很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。很多已经做案例的人，却不知道如何去学习更加高深的知识。那么针对这三类人，我给大家提供一个好的学习平台，免费领取视频教程，电子书籍，以及课程的源代...

用python写爬虫

河西无名式

07-02

1867

Python提供了许多Module，通过这些Module，可以很简单的做一些工作。比如，要获得cloga这个词在百度搜索结果页中的排名结果（排名结果+URL），这就是一个很简单的爬虫需求。首先，要通过urllib2这个Module获得对应的HTML源码。 import urllib2 url='http://www.baidu.com/s?wd=cloga' content=ur

怎么用Python写爬虫抓取网页数据

weixin_30423977的博客

12-08

288

机器学习首先面临的一个问题就是准备数据，数据的来源大概有这么几种：公司积累数据，购买，交换，政府机构及企业公开的数据，通过爬虫从网上抓取。本篇介绍怎么写一个爬虫从网上抓取公开的数据。很多语言都可以写爬虫，但是不同语言的难易程度不同，Python作为一种解释型的胶水语言，上手简单、入门容易，标准库齐全，还有丰富的各种开源库，语言本身提供了很多提高开发效率的语法糖，开发效率高，总之“人生...

用Python写网络爬虫

一江溪水

09-10

1333

网络爬虫（又被称为网页蜘蛛，网络机器人，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。前言在讲爬虫之前，我们需要知道我们是如何从网络上获取信息的，有人说，百度啊，谷歌啊！！！！！没错，大多时候，我们都是利用他们从网络上面获取我们的信息的，其实搜索引擎也是爬虫的一种，他们的爬每天都有成千上万的爬虫在互联网上不断的爬去各种各样的信息，存到他们的数据库，做出索引，通过复杂的算

用python写网络爬虫

我是人间惆怅客

02-23

1251

Python是一门十分强大的语言，要真正了解它的魅力必须通过一些实际运用·。这次通过写一个网络爬虫，我们来体验一下Python在应用中的优势。关于爬虫关于URI和URL urllib和urllib2 POST和GET 设置headers 设置代理和Timeout 使用PUTDELETE 使用DEBUG LOG 使用Cookie opener Cookielib 获取Cookie保存到变量保存C

Python多线程爬虫——数据分析项目实现详解

最新发布

codingexpert404的博客

10-24

723

Python爬取西游记全文

初学者用python写爬虫就这么简单

小发猫

04-17

2633

很多人害怕python复杂，还没入门就被吓倒了，今天我就要证明个大家看，python很简单。（高手们就别提底层了，留点入门的信心我们吧，我们就写个爬虫玩玩，玩玩而已。）使用python写一个入门级的非常简单的爬虫。#第一种方法import urllib2 #将urllib2库引用进来response=urllib2.urlopen("http://www.xiaofamao.com") #调用库...

python怎么写爬虫_如何用python写爬虫

weixin_39528697的博客

11-21

116

爬虫简单一点说就是用程序模拟浏览器行为，向服务器发送http请求，程序捕捉网页结果再解析一下，获得自己想要的数据。工具/原料python方法/步骤1首先导入爬虫需要用的一些包，包括requests（用来发送http请求），bs4（用来解析网页），pandas（用来展示数据）。2这里以爬取贴吧帖子为例子，只爬热门帖子（点击量超过一定阈值的帖子）。观察url结构，先实现爬取当前页面帖子的函数。3再...

Python写网络爬虫(一)

苍夜月明的博客

03-17

7406

首先，在学习网络爬虫之前，需要先了解它是什么！网络爬虫简介网络爬虫：web crawler（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。上面这些都是百度百科晦涩难懂的官话，用我们自己的话来说，爬虫就是：通过我们自己编写的程序，模拟浏览器上网，然后让其去互联网抓取我们想要的数据的过程。爬虫在使用场景中的分类..................

python写爬虫教程_用Python写爬虫程序基础教程（一）

weixin_42226116的博客

03-02

452

最近身边朋友都在讨论股市是不是牛市要来了吧？如果想自己做一个股市收盘价前三十名的涨跌幅度，又不用每天去点击网页浏览，用Python写个爬虫程序来做是不是超棒der环境建置安装Python安装PyCharm建立专案开启PyCharm，点击创建新项目输入项目名称，点击创建安装图书馆撰写爬虫程序前，需要先安装以下beautifulsoup请求在PyCharm上方工具列选择点击顶部选单的项目：[PROJE...

第一个python爬虫程序

weixin_33743880的博客

04-05

282

1.安装Python环境官网https://www.python.org/下载与操作系统匹配的安装程序，安装并配置环境变量 2.IntelliJ Idea安装Python插件我用的idea，在工具中直接搜索插件并安装（百度） 3.安装beautifulSoup插件 https://www.crummy.com/software/BeautifulSoup/bs4/doc....

用Python写爬虫入门篇（二）

小夏陌的博客

11-27

4004

简介最近在学习python，这几篇博文用于个人记录总结，不正之处还望大佬指出。用Python写爬虫入门篇（一）用Python写爬虫入门篇（二）用Python写爬虫入门篇（三）以下介绍下如何用爬虫抓取静态网页，用以熟悉整个爬取过程。 ...

Python爬虫入门实例：Python7个爬虫小案例（附源码）

Candyz7的博客

06-19

1万+

通过本文的讲解，相信读者已经对Python爬虫有了较为全面的认识。爬虫技能在数据分析、自然语言处理等领域具有广泛的应用，希望读者能够动手实践，不断提高自己的技能水平。同时，请注意合法合规地进行爬虫，遵守相关法律法规。祝您学习愉快！

实战|手把手教你用Python爬虫(附详细源码)

qq_46094651的博客

05-25

2094

Python3爬虫学习指南——实用技巧解析

本文将针对提供的信息，详细解读如何使用Python编写一个好玩的爬虫程序。首先，我们来了解一下标题中提到的“好玩的爬虫代码”。所谓的“好玩”，可能是指爬虫代码的编写过程富有趣味性，以及能够实现一些有趣的...