大数据处理:Spark与Pig的应用实践
1. Spark相关组件与功能
Spark作为强大的大数据处理框架,提供了多个重要组件,为数据处理和分析带来了便利。
- MLlib :提供常见的机器学习功能,包括测试和数据生成器。目前支持四种算法类型:二元分类、回归、聚类和协同过滤。官网文档: http://spark.apache.org/docs/latest/mllib - guide.html
- Spark SQL :源自Shark,Shark是Hive数据仓库系统的一种实现,使用Spark作为执行引擎。通过Spark SQL,可以将类似SQL的查询与Scala或Python代码混合使用。查询返回的结果集本身就是RDD,可以使用Spark核心方法、MLlib和GraphX进行操作。
2. 基于Scala API的Spark数据处理实践
使用Scala API实现数据处理,涵盖批处理和实时处理场景,并展示如何使用Spark Streaming计算实时Twitter流的统计信息。
- 构建和运行示例代码
- 示例的Scala源代码可在 https://github.com/learnin
超级会员免费看
订阅专栏 解锁全文
18

被折叠的 条评论
为什么被折叠?



