(python)热门话题的某些微博评论和转发数的抓取

最新推荐文章于 2025-06-11 15:11:46 发布

原创最新推荐文章于 2025-06-11 15:11:46 发布 · 4.2k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #数据挖掘 #新浪微博 #api #数据

我的微博数据挖掘与分析笔记专栏收录该内容

5 篇文章

订阅专栏

本文介绍了一种通过爬虫技术获取新浪微博热门话题及其相关微博数据的方法。针对新浪提供的API接口限制，博主采用直接爬取网页的方式，提取了微博用户的昵称、转发数及评论数等信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一：通过前一篇文章的方法提取热门话题，由于蛋疼的新浪wei~b~o~Api开发的太少，申请高级接口也很墨迹==，博主弄了好久没申请成功。自己只能通过热门话题搜索得到url,

然后爬数据，抓取发布微博的用户，以及对应微博的转发数和评论列表

二：例子：热门话题：“男生也来大姨妈”

result = urllib2.urlopen('http://s.weibo.com/weibo/%E7%94%B7%E7%94%9F%E4%B9%9F%E6%9D%A5%E5%A4%A7%E5%A7%A8%E5%A6%88&xsort=hot&Refer=hotmore')#打开你得到的url
res = result.read()
reg3 = re.compile(r'<p class=\\"comment_txt\\" node-type=\\"feed_list_content\\" nick-name=\\"(?P<name>.+?)\\">')#通过审查元素列出正规表达式，提取微博昵称
content = re.findall(reg3, res)
print content
print len(content)

#通过审查元素列出正规表达式，提取转发和评论数

<pre class="python" name="code">reg4 = re.compile(r'<ul class=\\"feed_action_info feed_action_row4\\">.+?<li>.+?<\\/li>.+?<li><a .+?><span .+?>.+?<em>(.+?)<\\/em><\\/span><\\/a><\\/li>.+?<li><a .+?><span .+?>.+?<em>(.+?)<\\/em><\\/span><\\/a><\\/li>.+?<li><a .+?><span .+?<\\/span><\\/a><\\/li>')