
爬虫学习
shawncheer
这个作者很懒,什么都没留下…
展开
-
正则表达式一 :re.seach()
>>> #正则表达式>>> import re>>> re.search(r"fishc","I love FishC.com!")>>> re.search(r"FishC","I love FishC.com!")>>> >>> #通配符“.”的使用>>> re.search(r'.','I love you!')>>> re.search(r'lov.','I lov原创 2016-03-01 17:03:31 · 1421 阅读 · 0 评论 -
正则表达式二 :re.findall()和元字符
>>> import re>>> re.search('nibi','wo niubi')>>> re.search('niubi','wo niubi')>>> >>> #用或语句>>> re.search(r"fish(c|d)","fishcddd")>>> >>> #用脱字符^来确认是否在字符串的开始位置>>> re.rearch(r"^fish","wowo fish原创 2016-03-01 18:03:04 · 1990 阅读 · 0 评论 -
爬虫学习:一个管用的贴吧妹子图下载器
import urllib.requestimport redef open_url(url): req=urllib.request.Request(url) req.add_header('User-Agent','Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Fire原创 2016-03-01 21:53:56 · 527 阅读 · 0 评论 -
爬虫学习:一个ip地址下载器
import urllib.requestimport redef open_url(url): req=urllib.request.Request(url) req.add_header('User-Agent','Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Fire原创 2016-03-01 22:25:51 · 430 阅读 · 0 评论 -
爬虫学习 基本打开网页操作
import urllib2urlopen(url,data,timeout)response=urllib2.urlopen(“http://www.baidu.com“)print response直接打印出该对象的描述print response.read()推荐使用下面三行request=urllib2.Request(“http://www.baidu.com“)response=urll原创 2016-02-16 14:23:51 · 1040 阅读 · 0 评论 -
爬虫基础理论
#coding=utf-8# 一、基本的抓站import urllib2content=urllib2.urlopen('http://www.baidu.com').read()#二、使用代理服务器#这在某些情况下比较有用,比如IP被封了,或者比如IP访问的次数受到限制等等。proxy_support=urllib2.ProxyHandler({'http':'http原创 2016-02-21 17:05:45 · 351 阅读 · 0 评论 -
爬虫学习一 : 打开特定网页获取信息
#coding=utf-8#===============================================================================#import urllib2#content=urllib2.urlopen('http://blog.youkuaiyun.com/yuri_4_vera').read()#以上运行结果#urllib2.H原创 2016-02-22 08:54:39 · 657 阅读 · 0 评论 -
爬虫爬虫学习: 爬取网页图片
#coding=utf-8import urllib2import osimport timeimport randomdef url_open(url): headers={ 'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091原创 2016-02-22 16:22:54 · 980 阅读 · 0 评论