- 博客(6)
- 收藏
- 关注
原创 4. 解析库的使用
使用XPathXPath常用规则表达式 描述 nodename 选取此节点的所有子节点 / 从当前节点选取直接子节点 // 从当前节点选取子孙节点 . 选取当前节点 .. 选取当前节点的父节点 @ 选取属性 lxml.etree(htmlText) 构造一个XPath解析对象,自动修正HTML,比如自动补足缺失的HTML标...
2020-04-07 20:46:45
649
原创 3. 用request和正则表达式(re)爬取懒人图库图片
用request和正则表达式(re)爬取懒人图库图片import urllib.requestimport urllib.errorimport re#公共类,获得页面的HTMLContentclass HTMLPageCode(): charSet = "gb2312" @staticmethod def getPage(inURL): try...
2020-04-06 19:48:26
492
原创 3. 基本库的使用
使用urlliburllib 包括四个模块:request,error,parse,robotparser urllib.request.urlopen() 返回一个 http.client.HTTPResponse对象 包含: read()、readinto()、getheader(name)、getheaders()、fileno() 用status属性可以得到返回结果的状态码 u...
2020-04-05 17:08:24
1387
原创 2. 爬虫基础
HTTP 原理URI : Uniform Resource Identifier 统一资源标识符 URL : Universal Resource Locator 统一资源定位符 URN : Universal Resource Name 统一资源名称,只命名资源而不指定如何定位资源 HTTP : Hyper Text Transfer Protocol 超文本传输协议 HTTPS :...
2020-04-04 16:05:23
207
原创 1. 解析库的安装
1. 请求库的安装Request 库的安装pip install requestRequests 库的安装这是一个第三方请求库pip install requestsWheel 的安装Wheel是Python的一种安装包,可以先下载.whl文件后,再用pip安装软件包pip install wheelSelenium 的安装Selenium是一个自动化测试工...
2020-04-03 20:39:17
1415
转载 web设计趋势与潮流
<br />From : http://ucdchina.com/snap/7426<br /> <br />原载于 《程序员》杂志2010年第7期。 作者:西乔<br />原文永久链接: http://blog.xiqiao.info/2010/07/19/719<br />19年前,世界上第一个网页诞生,它没有设计可言,由文本和url组成,样式只有最基本的<h1> <p>。 而如今,Web设计已经成长为独立而庞大的设计门类,一个网页的创造需要多个工种、多种技术的参与,其流程的复杂和挑战性已经超过任何传统
2010-07-23 00:35:00
505
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅