爬取带ajax的网页信息，需要将java script里的内容解析成json的格式

最新推荐文章于 2025-06-11 15:48:18 发布

原创最新推荐文章于 2025-06-11 15:48:18 发布 · 2.9k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#ajax #json #java #import #url #html

学习积累专栏收录该内容

3 篇文章

订阅专栏

本文介绍了一种使用Python爬取特定网页上微博认证专家信息的方法。通过解析HTTP响应内容并利用正则表达式和BeautifulSoup库提取所需数据。重点展示了如何定位到包含专家信息的HTML元素。

#-*-coding:utf-8 -*-
import httplib2
import re
import sys
import json
from bs4 import BeautifulSoup
import urllib2

h = httplib2.Http()
url = "http://verified.weibo.com/fame/licaizhuanjia/?rt=0&srt=4&letter=l"
resp,content = h.request(url)

pattern = re.compile('<script>STK && STK.pageletM && STK.pageletM.view\((.*?)\)<\/script>')
result = pattern.findall(content)
jsonResult = json.loads(result[3])
soup = BeautifulSoup(jsonResult['html'])
print soup
resultes = soup('div','select_user')
print resultes