hadoop
sunnyboy_4
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
记一次cloudera删除/var/lib/cloudera-host-monitor/ts/stream/日志导致无法重启问题
1、报错信息如下:日志目录/var/log/cloudera-scm-firehose/mgmt-cmf-mgmt-HOSTMONITOR-hadoop102.log.out。很明显就是因为删除的日志导致找不到文件。原创 2023-06-25 13:53:08 · 598 阅读 · 0 评论 -
spark3.3.1通过hbase-connectors连接CDH6.3.2自带hbase
spark3.3.1通过hbase-connectors连接CDH6.3.2自带hbasehbase-connectors源码编译scala脚本测试hbase-connectorspyspark脚本测试hbase-connectors原创 2023-01-15 15:58:23 · 1058 阅读 · 0 评论 -
CDH6.3.2版本pyspark-sql通过hive访问hbase
CDH6.3.2版本pyspark-sql通过hive访问hbase原创 2023-01-09 17:27:38 · 425 阅读 · 0 评论 -
conda打包pyspark运行环境在yarn上运行
conda打包pyspark运行环境在yarn上运行原创 2022-12-14 17:49:06 · 691 阅读 · 0 评论 -
服务器编译spark3.3.1源码支持CDH6.3.2
服务器编译spark3.3.1源码支持CDH6.3.2原创 2022-12-10 14:01:45 · 1913 阅读 · 6 评论 -
CDH-6.3.2完整安装附带资源包
CDH-6.3.2完整安装附带资源包原创 2022-12-07 19:34:39 · 1971 阅读 · 0 评论 -
采用yarn方式启动spark-thriftserver
采用yarn方式启动spark-thriftserver原创 2022-08-16 18:12:14 · 1923 阅读 · 0 评论 -
spark-streaming 事件时间的窗口滑块(Window Operations on Event Time)实例
spark-streaming 事件时间的窗口滑块(Window Operations on Event Time)实例原创 2022-08-12 10:41:25 · 478 阅读 · 0 评论 -
spark报错:java.lang.String is not a valid external type for schema of bigint
spark报错:java.lang.String is not a valid external type for schema of bigint原创 2022-08-11 10:42:32 · 1767 阅读 · 0 评论 -
yarn怎样调度spark答疑
yarn怎样调度spark答疑原创 2022-08-08 15:13:11 · 644 阅读 · 0 评论 -
flume+rabbitmq+spark-streaming实时流计算
flume+rabbitmq+spark-streaming结合使用原创 2022-05-27 15:17:28 · 723 阅读 · 0 评论 -
flume对接RabbitMQ附带flume插件包
flume对接RabbitMq原创 2022-05-26 18:25:33 · 543 阅读 · 0 评论 -
spark数据倾斜-随机前缀和扩容RDD进行join-java源码
spark数据倾斜-随机前缀和扩容RDD进行join-java源码原创 2022-05-20 11:34:22 · 927 阅读 · 0 评论 -
性能优化 - spark解决数据倾斜方案(1)Java版本
性能优化 - 解决数据倾斜方案(1)Java版本原创 2022-05-18 17:08:43 · 368 阅读 · 0 评论 -
性能优化 - spark广播变量 Java版本
Spark中分布式执行的代码需要传递到各个Executor的Task上运行。对于一些只读、固定的数据(比如从DB中读出的数据),每次都需要Driver广播到各个Task上,这样效率低下。广播变量允许将变量只广播(提前广播)给各个Executor。该Executor上的各个Task再从所在节点的BlockManager获取变量,而不是从Driver获取变量,从而提升了效率。广播变量,初始的时候,就在Drvier上有一份副本。task在运行的时候,想要使用广播变量中的数据,此时首先会在自己本地的Executo原创 2022-05-17 16:42:13 · 817 阅读 · 0 评论 -
yarn-spark-cluster配置history server并通过YARN跳转spark-ui
yarn-spark-cluster配置history server并通过YARN跳转spark-ui原创 2022-05-16 16:01:09 · 827 阅读 · 0 评论 -
spark-streaming pull方式拉取 flume-1.6.0-cdh5.10.1数据
spark-streaming pull方式拉取 flume-1.6.0-cdh5.10.1数据提供flume-1.6.0-cdh5.10.1 资源下载原创 2022-04-27 14:05:52 · 3901 阅读 · 0 评论 -
spark采用池化方案解决Task not serializable提高性能
spark采用池化方案解决Task not serializable提高性能附代码原创 2022-04-21 10:26:41 · 1976 阅读 · 0 评论 -
spark提交jar包执行磁盘空间不足
删除提交产生的缓存1、先使用如下命令查看文件夹占用情况du -h -x --max-depth=1 /文件夹名称2、切换到如下文件夹/usr/local/src/app/tmp/usercache/root/filecache3、清空文件夹下内容rm ./*4、接着在执行如下命令关闭安全模式hdfs dfsadmin -safemode leave5、执行上传命令spark-submit --class org.example.logshandler.LogsHandlerYar原创 2022-04-15 15:48:23 · 2638 阅读 · 0 评论 -
spark多数据源hive和mysql联合使用
1、需要将mysql驱动放入spark的jars包下面spark-2.6.0-bin-2.6.0-cdh5.16.2/jars/2、准备数据2.1、mysql库2.2、准备hive数据3、编写代码public class MoreDatabasesSpark { public static void main(String[] args) { SparkSession session = SparkSession.builder().appName("SparkSe原创 2022-02-12 16:13:29 · 1836 阅读 · 0 评论 -
spark使用yarn运行
1、spark仅仅作为一个客户端–master yarn 相当于 --deploy-mode client,也就是yarn-client模式时,后边这句–deploy-mode client可写可不写如果是yarn-cluster模式,则需要写上–deploy-mode cluster./spark-submit --class org.example.SparkSqlToHive --master yarn /usr/local/src/test/SparkTest-1.0-SNAPSHOT.jar原创 2022-02-12 10:58:34 · 1141 阅读 · 0 评论 -
spark打包jar连接hive数据源完整过程
java打包spark jar包访问hive数据源原创 2022-02-11 18:25:25 · 11646 阅读 · 0 评论 -
Hadoop小文件
1、小文件怎么产生1)通过某种手段采集数据采集过来Flume 采集到HDFS的数据会有很多小文件 需要调优LogstashWebServer2)MR(setPartitionerClass/setNumReduceTasks)/Hive/Spark(Core/SQL/Streaming)ETL 产生很多小文件stat(计算的东西又写入到表中) 数据仓库 分好几层 又是一堆小文件解决???删:原始数据ETL:根据规定删除Stat: 合? SequenceFile原创 2022-01-22 17:41:35 · 1547 阅读 · 0 评论 -
hive sql脚本学习
show databases ;-- 创建数据库 相当于新增一个 目录create database test_db1;-- 删除数据库 相当于删除一个目录drop database test_db1;use test_db;show tables ;create table helloword(id int,name string) row format delimited fields terminated by ',';create table sex(id int,name原创 2022-01-20 17:09:47 · 1859 阅读 · 0 评论 -
hadoop踩坑
could only be replicated to 0 nodes instead of minReplication (=1). There are 1 datanode(s) running and 1 node(s) are excluded in this operation.原创 2022-01-06 18:48:54 · 1020 阅读 · 0 评论
分享