Python 爬虫学习 urllib2

本文介绍如何利用Python的urllib2库抓取受限网站的内容,并通过设置User-Agent等头部信息来模拟浏览器访问,避免被服务器拦截。此外,还介绍了如何使用CookieJar管理Cookie,以及如何开启调试模式查看发送和接收的信息。

用urllib2抓取被限制的网站页面

  1. # coding:utf-8
    
    import urllib2
    
    url = "http://blog.youkuaiyun.com/troubleshooter"
    
    html = urllib2.urlopen(url)
    
    print html.read()
    

      返回403错误

  2. 模拟用户访问
    # coding:utf-8
    
    import urllib2
    
    url = "http://blog.youkuaiyun.com/troubleshooter"
    
    url_headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.111 Safari/537.36',
    				'Referer':'http://www.cnblogs.com/evilxr/p/4038902.html',
    				'Host':'blog.youkuaiyun.com',
    				'GET':url
    				}
    
    
    
    req = urllib2.Request(url, headers=url_headers)
    html = urllib2.urlopen(req)
    print html.getcode()
    200
    [Finished in 0.4s]
    

      

     

  3. 获取Cookie信息

    import urllib2
    import cookielib
    
    cookie = cookielib.CookieJar()
    opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
    response = opener.open('http://www.baidu.com')
    In [12]: for i in cookie:
        print i.name,i.value
       ....:     
    BAIDUID 4722B044786BAE8B1E484C0535706271:FG=1
    BIDUPSID 4722B044786BAE8B1E484C0535706271
    H_PS_PSSID 10299_16540_1430_16474_12824_10812_12868_14669_16520_16326_16662_16424_16514_15050_12386_13932
    PSTM 1438398244
    BDSVRTM 0
    BD_HOME 0
    

     

  4.  

    打开调试功能

    import urllib2
    
    httpHandler = urllib2.HTTPHandler(debuglevel=1)
    httpsHandler = urllib2.HTTPSHandler(debuglevel=1)
    opener = urllib2.build_opener(httpHandler, httpsHandler)
    
    urllib2.install_opener(opener)
    response = urllib2.urlopen('http://www.baidu.com')
    response = urllib2.urlopen('http://www.baidu.com')
    send: 'GET / HTTP/1.1\r\nAccept-Encoding: identity\r\nHost: www.baidu.com\r\nConnection: close\r\nUser-Agent: Python-urllib/2.7\r\n\r\n'
    reply: 'HTTP/1.1 200 OK\r\n'
    header: Date: Sat, 01 Aug 2014 03:14:07 GMT
    header: Content-Type: text/html; charset=utf-8
    header: Transfer-Encoding: chunked
    header: Connection: Close
    header: Vary: Accept-Encoding
    header: Set-Cookie: BAIDUID=0E3FD673DED07D3DBB4D6048AB469A32:FG=1; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com
    header: Set-Cookie: BIDUPSID=0E3FD673DED07D3DBB4D6048AB469A32; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com
    header: Set-Cookie: PSTM=1438398847; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com
    header: Set-Cookie: BDSVRTM=0; path=/
    header: Set-Cookie: BD_HOME=0; path=/
    header: Set-Cookie: H_PS_PSSID=13289_1441_10813_14432_12867_14667_16521_14951_16663_16427_16514_15291_12315_13932_10634; path=/; domain=.baidu.com
    header: P3P: CP=" OTI DSP COR IVA OUR IND COM "
    header: Cache-Control: private
    header: Cxy_all: baidu+d4d7821ea11368a1cad938a4de84b7ab
    header: Expires: Sat, 01 Aug 2015 03:13:12 GMT
    header: X-Powered-By: HPHP
    header: Server: BWS/1.1
    header: X-UA-Compatible: IE=Edge,chrome=1
    header: BDPAGETYPE: 1
    header: BDQID: 0x8824b3dc0001bdbb
    header: BDUSERID: 0
    

     

转载于:https://www.cnblogs.com/evilxr/p/4038902.html

(1)普通用户端(全平台) 音乐播放核心体验: 个性化首页:基于 “听歌历史 + 收藏偏好” 展示 “推荐歌单(每日 30 首)、新歌速递、相似曲风推荐”,支持按 “场景(通勤 / 学习 / 运动)” 切换推荐维度。 播放页功能:支持 “无损音质切换、倍速播放(0.5x-2.0x)、定时关闭、歌词逐句滚动”,提供 “沉浸式全屏模式”(隐藏冗余控件,突出歌词与专辑封面)。 多端同步:自动同步 “播放进度、收藏列表、歌单” 至所有登录设备(如手机暂停后,电脑端打开可继续播放)。 音乐发现与管理: 智能搜索:支持 “歌曲名 / 歌手 / 歌词片段” 搜索,提供 “模糊匹配(如输入‘晴天’联想‘周杰伦 - 晴天’)、热门搜索词推荐”,结果按 “热度 / 匹配度” 排序。 歌单管理:创建 “公开 / 私有 / 加密” 歌单,支持 “批量添加歌曲、拖拽排序、一键分享到社交平台”,系统自动生成 “歌单封面(基于歌曲风格配色)”。 音乐分类浏览:按 “曲风(流行 / 摇滚 / 古典)、语言(国语 / 英语 / 日语)、年代(80 后经典 / 2023 新歌)” 分层浏览,每个分类页展示 “TOP50 榜单”。 社交互动功能: 动态广场:查看 “关注的用户 / 音乐人发布的动态(如‘分享新歌感受’)、好友正在听的歌曲”,支持 “点赞 / 评论 / 转发”,可直接点击动态中的歌曲播放。 听歌排行:个人页展示 “本周听歌 TOP10、累计听歌时长”,平台定期生成 “全球 / 好友榜”(如 “好友中你本周听歌时长排名第 3”)。 音乐圈:加入 “特定曲风圈子(如‘古典音乐爱好者’)”,参与 “话题讨论(如‘你心中最经典的钢琴曲’)、线上歌单共创”。 (2)音乐人端(创作者中心) 作品管理: 音乐上传:支持 “无损音频(FLAC/WAV)+ 歌词文件(LRC)+ 专辑封面” 上传,填写 “歌曲信息
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值