Python爬虫
文章平均质量分 63
cheneyshark
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
识别网站所用技术及所有者——builtwith与whois模块学习笔记
很早前入手了一本网络爬虫的书籍,叫《用Python写网络爬虫》,作者是 Richard Lawson, 李斌翻译,人民邮电出版社出版的书籍(封面如图)。 刚才大概翻了下,个人感觉不太适合纯新手,比较适合有一些Python基础并且对爬虫感兴趣的同学。下面是针对刚才看第一章的两个Python小模块进行的一个尝试,都是书中的内容,仅仅做个笔记。 机器环境: pytho原创 2018-01-23 16:15:56 · 898 阅读 · 0 评论 -
简单的爬虫网页下载举例
下载网页 (重传) 重传功能:如果返回如503等错误吗,可以尝试重传,错误吗可以参考:https://tools.ietf.org/html/rfc7231 import urllib2 def download(url, num_retries=2): print 'Downloading:',url try: html = urllib2.urlo原创 2018-01-24 15:13:28 · 1190 阅读 · 0 评论 -
高级链接爬虫——代码学习
#coding:utf-8 # 正则能包 import re # 相对链接转换为绝对链接模块 urlparse.urljoin import urlparse # 处理URL import urllib2 import time from datetime import datetime # 解析robots.txt import robotparser # 提供队列操作的模块 impor原创 2018-01-25 22:40:44 · 432 阅读 · 0 评论 -
Python网络爬虫——数据提取
## Lxml Lxml是基于 libxml2 这一 XML 解析哭的Python 封装, 可以将不合法的HTML解析为统一格式。如下面这个例子:lxml正确的解析了属性两侧缺失的引号,并闭合标签。 import lxml.html broken_html = 'AreaPopulation' tree = lxml.html.fromstring(broken_html) fixed原创 2018-01-28 22:45:58 · 1159 阅读 · 0 评论
分享