.net构建轻微博实时热搜新闻站

微博热搜爬虫实践
本文介绍了一种使用Selenium WebDriver与PhantomJS抓取微博实时热搜的方法,通过定时任务实现持续更新,最后将数据用于个人网址导航站点。

小编最近无聊做了一个网址导航站,突发奇想加了个微博实时热搜模块,没想到效果还不错,这里给大家简单分享一下

首先说下思路:首先采用控制台程序来作为我们的爬虫工具,然后利用windows计划任务让它定时跑起来,有些童鞋要问为何要用windows计划任务呢,控制台里面做个定时不就好了么,小编是个很懒的程序员,有现成的就不去多花时间哈哈~

好,下面说下爬虫:

这里要注意:ScrapySharp不是拿他来爬取的 这里安装他是为了方便解析html文档,爬取程序是Selenum.WebDriver+PhantomJS

以下是代码片段:

var _driver = new PhantomJSDriver();

_driver.Navigate().GoToUrl(mpn.Link);

var html = _driver.PageSource; //执行 js后拿到的html文档

 _driver.Quit();

var doc = new HtmlDocument();
doc.LoadHtml(html);//获取到html后丢给ScrapySharp处理

这里之所以用Selenum.WebDriver+PhantomJS是因为微博把内容全都放到JS里面去加载,如果采用一般的网页抓取是没办法获取到抓取内容的。

然后后面就是分析目标结构:

结构很简单,获取链接文字,标签和热度值

最终效果

好这里就跟大家介绍完了,最后码字辛苦,希望大家支持下我的新站点: 我的网址导航 https://www.so180.cn

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值