python爬虫之新浪微博模拟登陆

本文介绍了一种使用Python爬取微博信息的方法。通过requests库获取网页内容,lxml解析页面结构,实现微博登录及抓取微博上的文本内容。
#-*-coding:utf8-*-

import requests
from lxml import etree

url = 'http://weibo.cn/u/xxxxxx' #此处请修改为微博地址
url_login = 'https://login.weibo.cn/login/'

html = requests.get(url).content
selector = etree.HTML(html)
####注意以下三个的内容会发生变化,在network中会发现,所以在登陆源码中能够查找到
password = selector.xpath('//input[@type="password"]/@name')[0]
vk = selector.xpath('//input[@name="vk"]/@value')[0]
action = selector.xpath('//form[@method="post"]/@action')[0]
#print action
#print password
#print vk
new_url = url_login + action    #登陆请求的网址
data = {
    'mobile' : 'xxxx@xxx.com',
     password : 'xxxxxxxx',     ###变量
    'remember' : 'on',
    'backURL' : 'http://weibo.cn/u/xxxxx',    #此处请填写微博地址
    'backTitle' : u'微博',
    'tryCount' : '',
    'vk' : vk,
    'submit' : u'登录'
    }

newhtml = requests.post(new_url,data=data).content
new_selector = etree.HTML(newhtml)
# print newhtml.content
content = new_selector.xpath('//span[@class="ctt"]')
for each in content:
    text = each.xpath('string(.)')
    print text



评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值