爬虫之人人网登陆账号后,根据cookie爬取页面

本文介绍了一次使用Python进行的人人网个人主页爬取实践。通过构造特定的HTTP请求头并利用自定义的get函数获取网页内容,最终将抓取到的数据保存为本地HTML文件。
部署运行你感兴趣的模型镜像
from day1.tuozhan_all import get
# 0.url
# 1.构造headers
# 2.调用get函数
# 3.保存页面


url = 'http://www.renren.com/967456760'

headers = {
    # 'Accept', 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    # 'Accept-Encoding', 'gzip, deflate',
    # 'Accept-Language', 'zh-CN,zh;q=0.9',
    # 'Cache-Control', 'max-age=0',
    # 'Connection', 'keep-alive',
    'Cookie':'anonymid=jktm6gk2-cyztke; depovince=GW; jebecookies=44660457-e912-40b4-88fd-f4c9e732f855|||||; _r01_=1; JSESSIONID=abcNftZZmYLcGfpnqk4uw; ick_login=e62ccb7d-6769-4ab1-bf8c-6d569c1a60a4; _de=14C260812794F0C4A96710977F452897; p=11d354caf8f66dd6d6087a57b2f7861e0; first_login_flag=1; ln_uact=17600207458; ln_hurl=http://head.xiaonei.com/photos/0/0/men_main.gif; t=6fb95a9686971dd59b0689ad51e510aa0; societyguester=6fb95a9686971dd59b0689ad51e510aa0; id=967456760; xnsid=c7d6bce7; ver=7.0; loginfrom=null; jebe_key=b024bef2-d0ac-4791-a289-aa1109180d4f%7Cf8ea8c1343ee9c86326a5734fd683f71%7C1534245556606%7C1%7C1534245563689; wp_fold=0',
    # 'Host', 'www.renren.com',
    # 'Upgrade-Insecure-Requests', '1',
    # 'User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
}

html_bytes = get(url,headers=headers)

with open('renren.html','wb') as f :
    f.write(html_bytes)

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成
Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型,相比 3.0 版本,它提升了图像质量、运行速度和硬件效率

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值