爬虫之人人网登陆账号后，根据cookie爬取页面

最新推荐文章于 2022-10-26 11:40:49 发布

转载最新推荐文章于 2022-10-26 11:40:49 发布 · 659 阅读

本文介绍了一次使用Python进行的人人网个人主页爬取实践。通过构造特定的HTTP请求头并利用自定义的get函数获取网页内容，最终将抓取到的数据保存为本地HTML文件。

部署运行你感兴趣的模型镜像

from day1.tuozhan_all import get
# 0.url
# 1.构造headers
# 2.调用get函数
# 3.保存页面


url = 'http://www.renren.com/967456760'

headers = {
    # 'Accept', 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    # 'Accept-Encoding', 'gzip, deflate',
    # 'Accept-Language', 'zh-CN,zh;q=0.9',
    # 'Cache-Control', 'max-age=0',
    # 'Connection', 'keep-alive',
    'Cookie':'anonymid=jktm6gk2-cyztke; depovince=GW; jebecookies=44660457-e912-40b4-88fd-f4c9e732f855|||||; _r01_=1; JSESSIONID=abcNftZZmYLcGfpnqk4uw; ick_login=e62ccb7d-6769-4ab1-bf8c-6d569c1a60a4; _de=14C260812794F0C4A96710977F452897; p=11d354caf8f66dd6d6087a57b2f7861e0; first_login_flag=1; ln_uact=17600207458; ln_hurl=http://head.xiaonei.com/photos/0/0/men_main.gif; t=6fb95a9686971dd59b0689ad51e510aa0; societyguester=6fb95a9686971dd59b0689ad51e510aa0; id=967456760; xnsid=c7d6bce7; ver=7.0; loginfrom=null; jebe_key=b024bef2-d0ac-4791-a289-aa1109180d4f%7Cf8ea8c1343ee9c86326a5734fd683f71%7C1534245556606%7C1%7C1534245563689; wp_fold=0',
    # 'Host', 'www.renren.com',
    # 'Upgrade-Insecure-Requests', '1',
    # 'User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
}

html_bytes = get(url,headers=headers)

with open('renren.html','wb') as f :
    f.write(html_bytes)

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

图片生成

Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型，相比 3.0 版本，它提升了图像质量、运行速度和硬件效率