使用环境:
- python3
- scrapy
- win10
爬取思路
(一)关于as、cp的生成与_signature的想法
对于今日头条的爬虫,网上搜索出来的文章大多是基于崔庆才(通过搜索爬取美女街拍的方案),怎么说呢,类似这样的虽说是个巧办法,但是用到工作中却是行不通的。在这里,网上是搜了又搜,谷歌,百度都用上了。在这里做一下今日头条爬取文章的几个方案。
- 一个方案是:破解了as,cp,却没能破解_signature:
用的技术有execjs,一个执行js代码的框架,但是还是不能很好的把浏览器环境(比如Node环境)嵌入进去,
使用了一个PyV8的js库,主要的获取_signature
给出了一段很操蛋的代码:
def get_signature(self,user_id):
"""
计算_signature
:param user