python爬取糗百内容

#-*- coding: utf-8 -*-
import urllib
import urllib2
import re

#页面为1
page=1
url='http://www.qiushibaike.com/hot/page/'+str(page)

#需要header验证
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
try:
    #获取地址
    request=urllib2.Request(url,headers=headers)
    #打开连接
    response=urllib2.urlopen(request)
    #输出读取内容
    #print response.read()

    content=response.read().decode('utf-8')

    # 去奇趣百科找不带图片的段子结构,匹配正则,糗百的标签会不定时改变,正则可能要重新匹配
    pattern = re.compile(
'<div.*?author.*?users.*?<h2>(.*?)</h2>.*?content.*?<span>(.*?)</span>.*?vote.*?number">(.*?)</i>.*?comments.*?number">(.*?)</i>',
        re.S)
    #<div.*?author.*?users.*?<h2>(.*?)</h2>.*?content.*?<span>(.*?)</span>.*?<a.*?img.*?>(.*?)</a>
    # 组 作者,内容,点赞,评论
    items=re.findall(pattern,content)

    for item in items:

    print item[0],item[1],item[3]
except urllib2.URLError,e:
    if hasattr(e,'code'):
        print e.code
    if hasattr(e,'reason'):
        print e.reason

 

转载于:https://www.cnblogs.com/anxiaoyu/p/6535228.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值