
spark
sofeld
出肉的长颈鹿.
展开
-
【Spark】standalone运行模式
简介: standalone 模式,是 spark 自己实现的,它是一个资源调度框架。这里我们要关注这个框架的三个节点: 1)client 2)master 3)worker spark 应用程序有一个 Driver 驱动,Driver 可以运行在 Client 上也可以运行在 master 上。如果你使用 spark-shell 去提交 job 的话它会是运行在 master 上的,如果你使...原创 2019-08-04 22:49:52 · 412 阅读 · 0 评论 -
【spark】spark sql 自定义schema
在 Spark 中可以直接读取数据文件 但是读取到的数据的每一项数据是没有数据类型的 而且不能使用数据像使用数据表中的字段名那样使用数据 可以在读取数据的时候对读取到的数据进行设置转换 设置转换后使用数据可以像使用数据库表中的字段那样 通过字段名获取数据 import java.util.Properties import org.apache.spark.sql.types._ impor...原创 2019-08-08 00:11:01 · 1683 阅读 · 0 评论 -
【spark】java.io.NotSerializableException:org.apache.hadoop.hbase.io.ImmutableBytesWritable
java.io.NotSerializableException:org.apache.hadoop.hbase.io.ImmutableBytesWritable 错误原因是因为 ImmutableBytesWritable 不能进行序列化(在 Java 中,如果类需要序列化需要实现 Serializable) 而文件在经过网络传输时需要序列化(网络传输是二进制传输) 解决:在官方...原创 2019-08-06 23:30:41 · 1440 阅读 · 0 评论 -
【spark】spark streaming入门——官方文档的总结
spark streaming简介 Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce...原创 2019-08-10 23:41:55 · 216 阅读 · 0 评论