《2018年5月31日》【连续232天】
标题:简单获取JS动态内容;
内容:
今天遇到了如何获取由JS动态生成的HTML内容的问题,就搜索了一下:
以今日头条为例:


源代码基本看不到静态内容,所以要借助开发者工具:

随便点一个:找到接口
网址:https://www.toutiao.com/stream/widget/local_weather/city/
进去是一堆乱码;
想要输出地名的话:
import requests
import json
url='https://www.toutiao.com/stream/widget/local_weather/city/'
wbdata =requests.get(url).text
data =json.loads(wbdata)
add =data['data']
for i in add:
for key in add[i].keys():
print(key)

再点到头条:

接口:https://www.toutiao.com/api/pc/focus/
进去还是一堆乱码;
import requests
import json
url='https://www.toutiao.com/api/pc/focus/'
wbdata =requests.get(url).text
data =json.loads(wbdata)
news =data['data']['pc_feed_focus']
for n in news:
title =n.get('title')
url =n.get('media_url')
print(title,url)

本文介绍了一种通过Python抓取今日头条网站上动态生成内容的方法,包括天气信息和新闻头条等,利用requests和json库实现数据解析。
4865

被折叠的 条评论
为什么被折叠?



