DataFrame=DataSet[Row]
在Spark1.6的时候就出了SparkSession,但是当时没有推广起来
在Spark2.0的时候完善
把SparkContent和SparkSqlContent进行整合
DataSet强类型
支持SQL
kafka分区和消费者的关系
kafka分区继承了一个接口实现的是PartitionAssignor,这个接口下面有两个类,
RoundRobinAssignor和
SparkStreaming是实时流,其实它是准实时流(秒级别的),实时流毫秒级别
它不能做地图