人生苦短,唯有python
是不是代码写多了自己就熟练了呢?
人人网爬虫模板,具体操作以后有机会再添加吧!
#coding: utf-8
import urllib2
import urllib
import cookielib
import re
def ZhihuBrower(url,user,password):
#登陆页面,可以通过抓包工具分析获得,如fiddler,wireshark
login_page = "http://www.zhihu.com/login"
try:
#获得一个cookieJar实例
cj = cookielib.CookieJar()
#cookieJar作为参数,获得一个opener的实例
opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
#伪装成一个正常的浏览器,避免有些web服务器拒绝访问。
opener.addheaders = [('User-agent','Mozilla/5.0 (Windows NT 6.3; WOW64; rv:36.0) Gecko/20100101 Firefox/36.0')]
#伪装成内部访问
opener.addheaders = [('Refer','http://www.zhihu.com/')]
#生成Post数据,含有登陆用户名密码。
data = urllib.urlencode({"email":user, "password":password})
#以post的方法访问登陆页面,访问之后cookieJar会自定保存cookie
opener.open(login_page,data)
#以带cookie的方式访问页面
op=opener.open(url)
#读取页面源码
data= op.read()
return data
#异常处理
except Exception,e:
print str(e)
#访问某用户的个人主页,其实这已经实现了人人网的签到功能。
html = ZhihuBrower("http://www.zhihu.com/",'544705740@qq.com','********')
print html
print '-----end--------'