Python爬虫学习笔记一

大光头BigLight

于 2018-05-05 21:11:24 发布

阅读量305

点赞数

分类专栏：爬虫文章标签：爬虫学习

爬虫专栏收录该内容

0 篇文章

订阅专栏

本文介绍了网络爬虫的基本概念和技术要点，包括使用Python进行网络爬取的方法、如何利用urllib和urllib2库发送请求获取HTML内容，以及正则表达式的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

爬虫：网络蜘蛛，通俗讲就是模拟浏览器。

所需要的知识架构：

Python基础知识
Python中urllib和urllib2库的用法
Python正则表达式
Python爬虫框架Scrapy
Python爬虫更高级的功能

关于基础知识，随便找本书就可以；urllib和urllib2是基本的爬虫库；正则表达式比较关键；框架比较高级，至于是什么我现在也刚开始学习，一起交流。

爬网页，首先要了解浏览网页是怎么工作的？

用户输入网址之后，经过DNS服务器，找到服务器主机，向服务器发出一个请求，服务器经过解析之后，发送给用户的浏览器 HTML、JS、CSS 等文件，浏览器解析出来，便是你看到的内容。

URL统一资源定位符，互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。

怎样扒网页呢？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存在于HTML中的，例如

怎样扒网页呢？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存在于HTML中的

怎样扒网页呢？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存在于HTML中的。

import urllib2
response = urllib2.urlopen("http://www.baidu.com")
print response.read()

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。