SiskinXu-优快云博客

原创 4. 解析库的使用

使用XPathXPath常用规则表达式描述 nodename 选取此节点的所有子节点 / 从当前节点选取直接子节点 // 从当前节点选取子孙节点 . 选取当前节点 .. 选取当前节点的父节点 @ 选取属性 lxml.etree(htmlText) 构造一个XPath解析对象，自动修正HTML，比如自动补足缺失的HTML标...

2020-04-07 20:46:45 649

原创 3. 用request和正则表达式（re）爬取懒人图库图片

用request和正则表达式（re）爬取懒人图库图片import urllib.requestimport urllib.errorimport re#公共类，获得页面的HTMLContentclass HTMLPageCode(): charSet = "gb2312" @staticmethod def getPage(inURL): try...

2020-04-06 19:48:26 492

原创 3. 基本库的使用

使用urlliburllib 包括四个模块：request,error,parse,robotparser urllib.request.urlopen() 返回一个 http.client.HTTPResponse对象包含： read()、readinto()、getheader(name)、getheaders()、fileno() 用status属性可以得到返回结果的状态码 u...

2020-04-05 17:08:24 1387

原创 2. 爬虫基础

HTTP 原理URI ： Uniform Resource Identifier 统一资源标识符 URL ： Universal Resource Locator 统一资源定位符 URN ： Universal Resource Name 统一资源名称，只命名资源而不指定如何定位资源 HTTP ： Hyper Text Transfer Protocol 超文本传输协议 HTTPS ：...

2020-04-04 16:05:23 207

原创 1. 解析库的安装

1. 请求库的安装Request 库的安装pip install requestRequests 库的安装这是一个第三方请求库pip install requestsWheel 的安装Wheel是Python的一种安装包，可以先下载.whl文件后，再用pip安装软件包pip install wheelSelenium 的安装Selenium是一个自动化测试工...

2020-04-03 20:39:17 1415

From ： http://ucdchina.com/snap/7426 原载于《程序员》杂志2010年第7期。作者：西乔 原文永久链接: http://blog.xiqiao.info/2010/07/19/719 19年前，世界上第一个网页诞生，它没有设计可言，由文本和url组成，样式只有最基本的<h1> 。而如今，Web设计已经成长为独立而庞大的设计门类，一个网页的创造需要多个工种、多种技术的参与，其流程的复杂和挑战性已经超过任何传统

2010-07-23 00:35:00 505

Siskin的专栏