- 博客(4)
- 收藏
- 关注
原创 Kafka为什么这么快 sequence IO、PageCache、SendFile的应用详解
大家都知道Kafka是将数据存储于磁盘的,而磁盘读写性能往往很差,但Kafka官方测试其数据读写速率能达到600M/s,那么为什么Kafka性能会这么高呢? 首先producer往broker发送消息时,采用batch的方式即批量而非一条一条的发送,这种方式可以有效降低网络IO的请...
2021-12-20 10:59:51
871
转载 spark和 flink对比
Spark缺点 无论是 Spark Streaming还是 Structured Streaming,Spark流处理的实时性还不够,所以无法用在一些对实时性要求很高的流处理场景中。 这是因为 Spark的流处理是基于所谓微批处理( Micro- batch processing)的思想,即它把流 处理看作是批处理的一种特殊形式,每次接...
2020-06-27 10:36:32
349
原创 Pyspark 连接 mysql 各种问题
关于 PySpark 提交集群运行 原先代码如下 import os import sys project = 'OneStopDataPlatformPY' # 工作项目根目录 path = os.getcwd().split(project)[0] + project sys.path.append(path) print(path) from pyspark.sql import Spa...
2020-02-25 14:43:07
571
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人