
爬虫
文章平均质量分 92
稚枭天卓
manu
展开
-
Spider 之 URL与urllib2
网络爬虫的基本操作是抓取网页。抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的。比如说你在浏览器的地址栏中输入 www.baidu.com 这个地址。打开网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器端发送了 一次请求,把服务器端的文件“抓”到本地,再进行解释、展现。HTML是一种标记语言,用标签标记内容并加以解析和区原创 2015-11-26 21:51:24 · 936 阅读 · 2 评论 -
Spider 之 深入解析 Python 正则表达式
一、 正则表达式基础1.1.概念介绍正则表达式是用于处理字符串的强大工具,它并不是Python的一部分。其他编程语言中也有正则表达式的概念,区别只在于不同的编程语言实现支持的语法数量不同。它拥有自己独特的语法以及一个独立的处理引擎,在提供了正则表达式的语言里,正则表达式的语法都是一样的。下图展示了使用正则表达式进行匹配的流程:正则表达式的大致匹配过程是:1.原创 2016-02-06 21:08:45 · 932 阅读 · 9 评论 -
Spider 之 下载连续的网页
# -*- coding: utf-8 -*-"""Created on Sat Feb 06 18:20:39 2016@author: Administrator# 操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。 # 功能:下载对应页码内的所有页面并存储为html文件。 #-----------------------------------原创 2016-02-06 20:12:33 · 741 阅读 · 0 评论 -
Spider 之 爬虫 基本工作原理
网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。这篇博客主要对爬虫以及抓取系统进行一个简单的概述。一、网络爬虫的基本结构及工作流程 一个通用的网络爬虫的框架如图所示: 网络爬虫的基本工作流程如下: 1.首先选取一部分精心挑选的种子URL; 2.将这些URL放入待原创 2016-03-21 20:36:00 · 6691 阅读 · 2 评论