大数据处理:Spark与Pig的应用实践
1. Spark相关组件与功能
Spark提供了多个组件,其中MLlib和Spark SQL尤为重要。MLlib(http://spark.apache.org/docs/latest/mllib-guide.html)提供常见的机器学习功能,包括测试和数据生成器,目前支持四种算法:二元分类、回归、聚类和协同过滤。Spark SQL源自Shark,它是Hive数据仓库系统的一种实现,使用Spark作为执行引擎,可将类似SQL的查询与Scala或Python代码混合使用,查询返回的结果集本身就是RDD,可通过Spark核心方法、MLlib和GraphX进行操作。
2. 使用Scala API处理数据
使用Scala API实现数据处理,考虑批量和实时处理场景,还展示了如何使用Spark Streaming计算实时Twitter流的统计信息。示例的Scala源代码可在https://github.com/learninghadoop2/book-examples/tree/master/ch5找到,使用sbt进行代码的构建、管理和执行。
- 代码构建与执行
- 编译源代码: $ sbt compile
- 打包成JAR文件: $ sbt package
- 生成执行编译类的辅助脚本:
$ sbt add-start-script-tasks
$ sbt start-script
超级会员免费看
订阅专栏 解锁全文
18

被折叠的 条评论
为什么被折叠?



