爬取今日头条中的图片

代码:https://github.com/factsbenchmarks/jinritoutiao

今日头条搜索 :cos.

网址:https://www.toutiao.com/search/?keyword=cos

 

分析1 在network的doc中的Preview,看到只有一句话,并没有页面的信息,所以判定存在异步加载。

 

 

分析2  在XHR中,果然找到相关的json数据。注意,只有key值是 media_creator_id 才会是页面中显示的。

  推荐一个chrome上的插件。JSON-handler,可以将json数据显示的更美观。

  这便是其效果。

 

分析3 在data下拿到每个item 的url,访问这个url。这里面有点玄机。

  比如,我们访问这个url:https://www.toutiao.com/a6543541911368499725/

   如果你用BeautifulSoup的select或者find方法,都找不到图片的 a 标签。尽管前端的html页面中会显示这个 a 标签。

  那么,图片的地址放在那里了呢?

  实际上可以通过Network-->doc-->Response查到

  

 

  分析 4 ,查看图片的绝对地址,然后,在doc-->Resoponse 中查找。可以发现是在articleInfo字典,content字段中。

  这个页面的所有数据都在这里。

  如何找到这个url呢? 通过正则匹配。

 

  分析5 拿到绝对地址,可以报图片下载下来,并将url保存到数据库中。

 

转载于:https://www.cnblogs.com/654321cc/p/8821341.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值