自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 4. 解析库的使用

使用XPathXPath常用规则表达式 描述 nodename 选取此节点的所有子节点 / 从当前节点选取直接子节点 // 从当前节点选取子孙节点 . 选取当前节点 .. 选取当前节点的父节点 @ 选取属性 lxml.etree(htmlText) 构造一个XPath解析对象,自动修正HTML,比如自动补足缺失的HTML标...

2020-04-07 20:46:45 649

原创 3. 用request和正则表达式(re)爬取懒人图库图片

用request和正则表达式(re)爬取懒人图库图片import urllib.requestimport urllib.errorimport re#公共类,获得页面的HTMLContentclass HTMLPageCode(): charSet = "gb2312" @staticmethod def getPage(inURL): try...

2020-04-06 19:48:26 492

原创 3. 基本库的使用

使用urlliburllib 包括四个模块:request,error,parse,robotparser urllib.request.urlopen() 返回一个 http.client.HTTPResponse对象 包含: read()、readinto()、getheader(name)、getheaders()、fileno() 用status属性可以得到返回结果的状态码 u...

2020-04-05 17:08:24 1387

原创 2. 爬虫基础

HTTP 原理URI : Uniform Resource Identifier 统一资源标识符 URL : Universal Resource Locator 统一资源定位符 URN : Universal Resource Name 统一资源名称,只命名资源而不指定如何定位资源 HTTP : Hyper Text Transfer Protocol 超文本传输协议 HTTPS :...

2020-04-04 16:05:23 207

原创 1. 解析库的安装

1. 请求库的安装Request 库的安装pip install requestRequests 库的安装这是一个第三方请求库pip install requestsWheel 的安装Wheel是Python的一种安装包,可以先下载.whl文件后,再用pip安装软件包pip install wheelSelenium 的安装Selenium是一个自动化测试工...

2020-04-03 20:39:17 1415

转载 web设计趋势与潮流

<br />From : http://ucdchina.com/snap/7426<br /> <br />原载于 《程序员》杂志2010年第7期。 作者:西乔<br />原文永久链接: http://blog.xiqiao.info/2010/07/19/719<br />19年前,世界上第一个网页诞生,它没有设计可言,由文本和url组成,样式只有最基本的<h1> <p>。 而如今,Web设计已经成长为独立而庞大的设计门类,一个网页的创造需要多个工种、多种技术的参与,其流程的复杂和挑战性已经超过任何传统

2010-07-23 00:35:00 505

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除