
大数据
文章平均质量分 85
FLGB
这个作者很懒,什么都没留下…
展开
-
后台数据报表导出数据量过大问题
如果你当前的做法是 一次性查询 100W 条数据,那就容易导致 CK 查询压力大、内存占用高。后面使用binlog监听,洗数据洗成一张宽表,存放在ck中,但是发现超过一定数量级100w也会很卡慢,但是比mysql强的是可以出来。ClickHouse 提供 流式查询 + CSV 导出,这样数据 不会全部加载到内存,而是边查边写,提高效率。用户提交导出请求后,后端 异步任务 开始查询并生成文件(存储到 OSS 或本地)。任务完成后,给用户 返回下载链接,前端再下载文件。这种方案比较繁琐,效果也不好。原创 2025-02-28 17:01:35 · 564 阅读 · 0 评论 -
Kafka常用集群配置参数
这个参数真正发挥作用的场景其实是在云上构建多租户的 Kafka 集群:设想要做一个云上的 Kafka 服务,每个租户只能使用 100GB 的磁盘空间,为了避免有个“恶意”租户使用过多的磁盘空间,设置这个参数就显得至关重要了。对性能要求较高的场景,可以适当增加 log.flush.interval.ms 和 log.flush.interval.messages 的值,以减少磁盘 I/O,但可能增加数据丢失的风险。它是若干个逗号分隔的三元组,每个三元组的格式为<协议名称,主机名,端口号>。原创 2024-12-23 11:46:53 · 1717 阅读 · 0 评论 -
基于ZooKeeper搭建Hadoop高可用集群
在之前安装的中都是单节点,集群不具有高可用性。原创 2024-12-04 16:15:27 · 1239 阅读 · 0 评论 -
Kafka 图形化工具 Eagle安装
(如果是一个节点搭建的伪集群,会报端口冲突)ke 库用来储存元数据。如未安装kafka,原创 2024-12-02 18:36:41 · 1158 阅读 · 2 评论 -
Kafka2.2.0集群安装
Kafka2.2.0 基于zookeeper搭建,这里也搭建一个三个节点的集群。原创 2024-12-02 17:47:44 · 588 阅读 · 0 评论 -
Zookeeper3.6.3集群安装
为保证集群高可用,Zookeeper 集群的节点数最好是奇数,最少有三个节点,所以这里搭建一个三个节点的集群。原创 2024-12-02 17:11:44 · 879 阅读 · 0 评论 -
Hadoop3.3.6集群安装
在 Windows 下 C:\Windows\System32\drivers\etc\hosts 添加 IP 映射。vim /etc/profile.d/my_env.sh配置JAVA和Hadoop环境变量(** (2)、修改配置文件yarn-env.sh 在文件末尾加上**解压后即可,看到/opt/app/hadoop-3.3.6文件夹。】查看/output路径下面生成的单词计数结果文件是否正确。** (1)、修改 hadoop-env.sh**修改下面文件中存在,配置放入其中,且只保留一组的。原创 2024-11-25 13:50:56 · 1170 阅读 · 0 评论 -
Hadoop 常用生态组件
Flink 独立运行:与 Spark 一样,Flink 支持独立的 Local 模式和 Standalone 模式,不依赖 Hadoop 的 HDFS 或 YARN。:Flink 可以与 HDFS 集成,用 HDFS 作为分布式文件系统来存储和读取大规模数据,特别适用于批处理场景。:Flink 可以通过 YARN 来管理和调度资源,特别适合在共享资源的 Hadoop 集群上运行多个分布式应用时。原创 2024-09-20 14:26:57 · 4125 阅读 · 0 评论 -
Flink 与 Kubernetes (K8s)、YARN 和 Mesos集成对比
Kubernetes 更适合现代化的云原生应用,尤其是当你已经在使用 K8s 进行容器编排时,Flink 在 Kubernetes 上可以很好地支持自动扩展、容器化部署和微服务架构。YARN 是经典的 Hadoop 生态系统的一部分,如果你已有 YARN 集群或需要与 Hadoop 集成,Flink 在 YARN 上运行是理想的选择。Mesos 更适合多租户、大规模集群的资源共享和调度,如果你的集群中需要协调多个框架和作业共享资源,Mesos 是一个不错的选择。原创 2024-09-19 11:11:15 · 1739 阅读 · 0 评论