python3 爬取今日头条文章(巧妙避开as,cp,_signature)

使用环境:
  • python3
  • scrapy
  • win10
爬取思路
(一)关于as、cp的生成与_signature的想法

对于今日头条的爬虫,网上搜索出来的文章大多是基于崔庆才(通过搜索爬取美女街拍的方案),怎么说呢,类似这样的虽说是个巧办法,但是用到工作中却是行不通的。在这里,网上是搜了又搜,谷歌,百度都用上了。在这里做一下今日头条爬取文章的几个方案。

  • 一个方案是:破解了as,cp,却没能破解_signature:

今日头条的as、cp破解

用的技术有execjs,一个执行js代码的框架,但是还是不能很好的把浏览器环境(比如Node环境)嵌入进去,

使用了一个PyV8的js库,主要的获取_signature

给出了一段很操蛋的代码:

def get_signature(self,user_id):
   """
   计算_signature    
   :param user
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值