- 博客(12)
- 收藏
- 关注
原创 本地安装Flink
注:运行Flink需要安装JAVA环境(Java 8 or 11)可以查看环境是否已安装JAVA:命令: java -version 下载Flink安装包D ownload: https://flink.apache.org/downloads/ 将下载的安装包进行解压:$ tar -xzf flink-1.13.6-bin-scala_2.11.tgz$ cd flink-1.13.6-bin-scala_2.11$ ./bin/start-cluster.shStarting cluster.
2023-10-10 21:41:41
301
1
原创 Spark/Hive性能优化建议
不管是spark还是hive,不要相信自己的代码,一定要去看执行计划和spark的执行ui界面。踩过的坑…一开始还切过hive计算,发现mapjoin不起效果,直接hint方式没用,还需要设置最小的mapjoin数据大小的参数。同时hive中不同的是,如果mapjoin分发内存溢出,那么会有备用执行stage来代替。而spark走了broadcast hash join失败了就是内存溢出就推出了。
2023-09-17 17:15:26
376
1
原创 Spark安装及配置详细步骤
解压scala、spark: tar -zxvf scala-2.11.8.tgz tar -zxvf spark-2.4.4-bin-hadoop2.6.tgz 配置环境变量(master、slave1、slave2分别执行): export SCALA_HOME=/usr/local/src/scala-2.11.8 export SPARK_HOME=/usr/local/src/spark-2.4.4-bin-hadoop2.6 export
2023-09-16 14:49:27
1077
1
原创 Centos7开启访问端口
参数:--zone (作用域)--add-port=80/tcp (添加端口,格式:端口/通讯协议)--permanent (永久生效,没有此参数重启后失效)
2023-08-29 21:26:23
4855
1
原创 SPARK软件栈
是一个用来实现快速而通用的。Spark扩展了广泛你爱我的MapReduce计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。Spark的一个主要特点就是能够在内存中进行计算,因而更快。即使是必须在磁盘上进行的复杂计算,Spark依然比MapReduce更加高效。Spark提供丰富的接口,除了基于Python、Java、Scala和 SQL的简单易用的API以及内建的丰富的程序库外,Spark还能和其他大数据工具密切配合使用。
2023-08-08 14:00:14
262
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人