Spindle：基于Spark的下一代网页分析处理工具-优快云博客

Spindle：基于Spark的下一代网页分析处理工具

项目基础介绍

Spindle 是一个由 Adobe Research 开发的开源项目，旨在利用 Scala、Spark 和 Parquet 技术构建下一代网页分析处理系统。该项目原型是一个围绕生产工作负载需求设计的 Spark-based 网页分析查询引擎，通过多线程 HTTP 接口接收查询请求，并从 Hadoop 分布式文件系统上的 Apache Parquet 列式存储格式中加载数据进行处理。

主要编程语言：Scala

核心功能

Spindle 的核心功能是作为一个网页分析查询引擎，支持以下几种典型的查询：

页面浏览量（Pageviews）：按日期统计页面浏览量。
每日总收入（Revenue）：按日期统计总收入。
来自顶级推荐域的收入（RevenueFromTopReferringDomains）：获取每个访问的顶级推荐域，并按日期统计收入。
来自Google的首次推荐域收入（RevenueFromTopReferringDomainsFirstVisitGoogle）：类似于前一个查询，但仅针对来自 Google 的首次推荐域。
热门页面（TopPages）：统计整个日期范围内的热门页面。
按浏览器分类的热门页面（TopPagesByBrowser）：根据使用的浏览器统计热门页面。
热门页面的前一个页面（TopPagesByPreviousTopPages）：统计访问热门页面之前用户所在的页面。
顶级推荐域（TopReferringDomains）：统计整个日期范围内的顶级推荐域。

Spindle：基于Spark的下一代网页分析处理工具

Spindle：基于Spark的下一代网页分析处理工具

项目基础介绍

核心功能

最近更新的功能