通过单击流分析确定热门主题

本教程演示如何使用Apache Kafka和Apache Spark进行实时点击流分析,以检测Wikipedia上的热门主题。

135913_kYdZ_3341527.png

本文将带领大家使用 Apache Spark 和 Kafka 收集、分析和报告网站访问者数据

概览

点击流分析是收集、分析和报告用户访问了哪些网页的过程,可以提供有关网站使用特征的有用信息。

点击流分析的一些流行用例包括:

  • A/B 测试 – 统计分析从版本 A 更改到 B 对网站的用户有何影响。
  • 在购物门户上生成推荐 – 购物门户网站用户的点击模式表明了用户是受何种影响才购买某款商品的。此信息可用来为未来的类似点击模式生成推荐。
  • 针对性广告 – 类似于推荐生成,但跟踪用户的跨网站点击,并利用此使投放的广告更实时准确。
  • 热门主题 – 可使用点击流分析来实时分析或报告热门主题。对于某个特定的时间段,显示获得用户点击次数最多的热门项目。

在本 Code Pattern 中,我们将演示如何检测 Wikipedia 上的实时热门主题。要执行此任务,将会使用 Apache Kafka 作为消息队列,使用 Apache Spark 结构化流引擎来执行分析。这种组合因其实用性、高吞吐量和低延迟特征而闻名。

完成本 Code Pattern 后,您将掌握如何:

  • 使用 Jupyter Notebook 加载、可视化和分析数据。
  •  IBM Watson Studio 中运行 Jupyter Notebook。
  • 使用 Apache Spark 结构化流执行点击流分析。
  • 利用 Apache Kafka 构建一个低延迟处理流。

相关演示视频

http://v.youku.com/v_show/id_XMzUwODg1NzE4OA==.html

 

立即注册体验点击这里

更多内容点击进入

 

转载于:https://my.oschina.net/u/3341527/blog/1812141

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值