
爬虫
磊布斯
我的优快云博客,欢迎交流!
展开
-
初识爬虫之一:urllib2与urllib实现
#coding:utf8#一:请求与响应#GET请求#1,直接用urlopen函数:通过URL发出的请求获取数据import urllib2response = urllib2.urlopen('http://www.zhihu.com')html = response.read()print html#2,分两步:先请求再响应import urllib2#请求reque原创 2017-10-20 22:10:10 · 394 阅读 · 0 评论 -
数据存储(无数据库版)之四:Email提醒
#coding:utf-8''' Email主要起到提醒作用,当爬虫在运行过程中遇到异常或者服务器遇到问题时,可以通过Email及时向自己报告 发送邮件的协议是STMP,python内置对SMTP的支持,可以发送纯文本邮件,HTML邮件以及带附件的邮件。python对SMTP支持有smtplib和email两个模块,email负责构造邮件,smtplib负责发送邮件。原创 2017-10-25 11:11:43 · 612 阅读 · 0 评论 -
数据存储(无数据库版)之三:多媒体文件抽取
#coding:utf-8#存储文件的两种方式:1,只获取文件的URL链接(见5.1节);# 2,直接将媒体文件下载到本地(本节讲解);#本节主要介绍urllib模块的urlretrieve()函数。urlretrieve()方法直接将远程数据下载到本地;#函数原型:#urlretrieve(url, filename=None, reporthoo原创 2017-10-25 11:10:03 · 582 阅读 · 0 评论 -
数据存储(无数据库版)之二:存储为CSV
#coding:utf-8''' CSV(Comma-Separated Values,逗号分割值,或字符分割值),文件已纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被破解的数据 CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其他字符或字符串,最常见的是逗号或制表符。通常,所有记录都原创 2017-10-25 11:07:53 · 573 阅读 · 0 评论 -
数据存储(无数据库版)之一:存储为JSON
#coding:utf8#使用Requests访问http://seputu.com/,获取并打印HTML文档内容import requestsuser_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'headers = {'User-Agent':user_agent}r = requests.get('http://s原创 2017-10-24 21:14:01 · 2024 阅读 · 0 评论 -
HTML解析之五:lxml的XPath解析
#coding:utf8# BeautifulSoup可以将lxml作为默认的解析器使用,lxml亦可以单独使用;# 比较BeautifulSoup和lxml:#(1)#BeaufulSoup基于DOM,会在如整个文档,解析整个DOM树,比较消耗内存和时间;#lxml是使用XPath技术查询和处理HTML/XML文档库,只会局部遍历,所以速度较快。#现在BeautifulSoup可以使原创 2017-10-23 20:08:35 · 679 阅读 · 0 评论 -
HTML解析之四:BeautifulSoup4的使用
#coding:utf8# 一:快速开始#导入bs4库from bs4 import BeautifulSoup#创建包含HTML代码的字符串html_str = """The Dormouse's storyThe Dormouse's storyOnce upon a time there were three little sisters; and their names原创 2017-10-22 22:32:37 · 1850 阅读 · 0 评论 -
HTML解析之三:安装BeautifulSoup4
Beautiful Soup是一个可以从HTML或XML文件提取数据的python库能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式在爬虫中主要用到Beautiful Soup的查找提取功能推荐使用Beautiful Soup4安装Beautiful Soup4一:ubuntu或Debain可以执行 apt-get-install Python-bs4二:通过命令安装原创 2017-10-21 22:30:08 · 438 阅读 · 0 评论 -
HTML解析之二:python与正则表达式
#coding:utf8# re中的compile函数,将一个正则表达式的字符串转化为pattern匹配对象# 如 pattern = re.compile(r'\d+')# 生成一个匹配数字的pattern对象,给接下来的函数做参数#一:re.match(pattern,string[,flags])#从输入参数string(匹配的字符串)开头开始,尝试匹配pattern,一直向原创 2017-10-21 22:27:10 · 626 阅读 · 0 评论 -
HTML解析之一:正则表达式
一:入门小例子\bwe\b匹配we\b 是元字符,不代表空格,标点符号,换行,只是用来匹配位置. 元字符,匹配除换行符的任意字符* 元字符,匹配数量.* 匹配任意数量的不换行字符二:常用元字符四种作用:匹配字符,匹配位置,匹配数量,匹配模式. 匹配除换行符的任意字符\b 匹配单词的开始或结束\d 匹配数字\w 匹配字母,数字,下划线或汉字\s 匹配任意空白符,包括空格原创 2017-10-21 22:25:08 · 1610 阅读 · 0 评论 -
初始网络爬虫之三:网络爬虫最常用的requests库
#coding:utf8#python中用第三方库requests实现HTTP请求,是python中最常见的。#一:请求与响应模型#GET请求import requestsr = requests.get('https://www.baidu.com/')print r.content#POST请求import requestspostdata = {'username' :原创 2017-10-20 22:14:43 · 465 阅读 · 0 评论 -
初识网络爬虫之二:httplib与urllib实现
#coding:utf8#GET请求import httplibconn = Nonetry: conn = httplib.HTTPConnection("www.baidu.com") conn.request("GET", "/") response = conn.getresponse() print response.status, respon原创 2017-10-20 22:13:05 · 320 阅读 · 0 评论 -
PyQuery详解
一:安装pyquerypip install pyquery二:初始化1,字符串初始化html='''<div> <ul> <li class="item-0">first item</li> <li class="item-1"><a href="link2.html"&a原创 2018-02-25 13:39:29 · 429 阅读 · 0 评论