python instagram 爬虫

本文详细介绍了如何实现Instagram爬虫,包括2019年6月前后的变化,如X-Instagram-GIS的算法和使用,以及爬取过程中所需关注的header和cookie字段。特别强调了user-agent、session-id的重要性,并提供了分页请求和数据结构解析的示例代码。同时,提到了错误日志记录和代理设置的考虑,最后分享了一个封装好的Instagram爬虫库,欢迎大家提供反馈。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

直接介绍一下具体的步骤以及注意点:

instagram 爬虫注意点

  • instagram 的首页数据是 服务端渲染的,所以首页出现的 11 或 12 条数据是以 html 中的一个 json 结构存在的(additionalData), 之后的帖子加载才是走 ajax 请求的

  • 在 2019/06 之前,ins 是有反爬机制的,请求时需要在请求头加了 'X-Instagram-GIS' 字段。其算法是:
    1、将 rhx_gis 和 queryVariables 进行组合

    rhx_gis 可以在首页处的 sharedData 这个 json 结构中获得

    2、然后进行 md5 哈希
    e.g.

        queryVariables = '{"id":"' + user_id + '","first":12,"after":"' +cursor+ '"}'    print(queryVariables)    headers['X-Instagram-GIS' = hashStr(GIS_rhx_gis + ":" + queryVariables)
  • 但是在在 2019/06 之后, instagram 已经取消了 X-Instagram-GIS 的校验,所以无需再生成 X-Instagram-GIS,上一点内容可以当做历史来了解了

  • 初始访问 ins 首页的时候会设置一些 cookie,设置的内容 (response header) 如下:

        set-cookie: rur=PRN; Domain=.instagram.com; HttpOnly; Path=/; Secure    set-cookie:ds_user_id=11859524403; Domain=.instagram.com; expires=Mon, 15-Jul-2019 09:22:48 GMT; Max-Age=7776000; Path=/; Secure    set-cookie: urlgen="{\"45.63.123.251\": 20473}:1hGKIi:7bh3mEau4gMVhrzWRTvtjs9hJ2Q"; Domain=.instagram.com; HttpOnly; Path=/;Secure    set-cookie: csrftoken=Or4nQ1T3xidf6CYyTE7vueF46B73JmAd; Domain=.instagram.com;expires=Tue, 14-Apr-2020 09:22:48 GMT; Max-Age=31449600; Path=/; Secure
  • 关于 query_hash,一般这个哈希值不用怎么管,可以直接写死

  • 特别注意:在每次请求时务必带上自定义的 header,且 header 里面要有 user-agent,这样子才能使用 rhx_gis 来进行签名访问并且获取到数据。切记!是每次访问!例如:

    headers = {    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}
  • 大部分 api 的访问需要在请求头的 cookie 中携带 session-id 才能得到数据,一个正常的请求头 (request header) 如下:

        :authority: www.aiidol.com    :method: GET    :path: /graphql/query/?query_hash=ae21d996d1918b725a934c0ed7f59a74&variables=%7B%22fetch_media_count%22%3A0%2C%22fetch_suggested_count%22%3A30%2C%22ignore_cache%22%3Atrue%2C%22filter_followed_friends%22%3Atrue%2C%22seen_ids%22%3A%5B%5D%2C%22include_reel%22%3Atrue%7D    :scheme: https    accept: */*    accept-encoding: gzip, deflate, br    accept-language: zh-CN,zh;q=0.9,en;q=0.8,la;q=0.7    cache-control: no-cache    cookie: mid=XI-joQAEAAHpP4H2WkiI0kcY3sxg; csrftoken=Or4nQ1T3xidf6CYyTE7vueF46B73JmAd;ds_user_id=11859524403; sessionid=11859524403%3Al965tcIRCjXmVp%3A25; rur=PRN; urlgen="{\"45.63.123.251\": 20473}:1hGKIj:JvyKtYz_nHgBsLZnKrbSq0FEfeg"    pragma: no-cache    referer:https://www.instagram.com/    user-agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36    x-ig-app-id:936619743392459    x-instagram-gis: 8f382d24b07524ad90b4f5ed5d6fccdb    x-requested-with:XMLHttpRequest

    注意 user-agent、x-ig-app-id (html 中的 sharedData 中获取)、x-instagram-gis,以及 cookie 中的 session-id 配置

  • api 的分页 (请求下一页数据),如用户帖子列表
    ins 中一个带分页的 ajax 请求,一般请求参数会类似下面:

    query_hash: a5164aed103f24b03e7b7747a2d94e3cvariables:{"id":"1664922478","first":12,"after":"AQBJ8AGqCb5c9rO-dl2Z8ojZW12jrFbYZHxJKC1hP-nJKLtedNJ6VHzKAZtAd0oeUfgJqw8DmusHbQTa5DcoqQ5E3urx0BH9NkqZFePTP1Ie7A"}

    -- id 表示用户 id,可在 html 中的 sharedData 中获取
    -- first 表示初始时获取多少条记录,好像最多是 50
    -- after 表示分页游标,记录了分页获取的位置

    当然 variables 部分里面的参数根据请求的 api 不同而可能不同 (不止这么少),这里只

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值