
大数据分析理论和技术
聚焦大数据分析的理论和技术,深入分析领域新技术的研究和应用。
时空琴弦
学以致用,学无止境
展开
-
spark scala maven打包方式,基于maven的spark项目配置(坑太多,只有自己来了)
介绍 最近有个spark集群压测时小任务,因为习惯了用maven,所以打算用maven的scala依赖来写spark程序。很久没写scala代码有些生疏,代码写好了,打包一直运行不起来,网上搜了很多材料发现没用,有的用ide打包,体验不是很好。 因此找了个之前自己写的一个项目,贴出来供大家参考和爬坑。maven配合如果要用maven依赖写scala程序,那么需要做相关的依赖,并且在build里面做一些配置才能打出可直接用spark-submit运行的jar。pom.xml<?xml v原创 2020-06-24 18:23:37 · 3958 阅读 · 1 评论 -
hdfs报NativeCodeLoader Unable to load native-hadoop library .. using builtin-java classes where appli
报错信息$ hdfs dfs -get /tmp/perfomance/data/200_101_20191111230827_1.gz …/data/pull/20/06/16 05:22:41 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable下载hadoop-native-64包,使用下面的原创 2020-06-16 13:36:40 · 491 阅读 · 0 评论 -
为你呈上热腾腾的shell多线程并发处理任务脚本
使用shell多线程并发完成任务batchTask.sh#!/usr/bin/bash###################### Autor: Troll## Date: 2020-06-15## Desc: 本地文件批量put性能测试(多线程)##################### 并发进程数thread_num=30startTime=$(date +%H:%M:%S)echo "${startTime} task start..."# mkfifotemp原创 2020-06-16 13:01:55 · 618 阅读 · 0 评论 -
docker 部署kylin开发环境
下载docker镜像docker pull apachekylin/apache-kylin-standalone:3.0.1运行dockerdocker run -d \-m 8G \-p 9009:9009 \-p 10033:10033 \-p 39283:39283 \-p 46709:46709 \-p 50070:50070 \-p 38999:38999 \-p 8088:8088 \-p 13562:13562 \-p 50010:50010 \-p 50075原创 2020-06-16 12:58:26 · 1320 阅读 · 0 评论 -
Flink日常报错和解决方案记录(企业实战备忘录)
问题: 问题: Flink Scala在进行从Connectors中读取数据时,调用createInput方法遇到隐式转换的报错现象:报错代码段: // 获取flink环境 val flink = ExecutionEnvironment.getExecutionEnvironment val inputBuilder = JDBCInputFormat...原创 2019-12-29 22:16:23 · 4384 阅读 · 1 评论 -
Spark jdbc海量数据拉取报ArrayIndexOutOfBoundsException: 1269000000解析及详细解决方案
spark jdbc 连接oracle、Mysql数据库时报错Job aborted due to stage failure: Task 0 in stage 39.0 failed 4 times, most recent failure: Lost task 0.3 in stage 39.0 (TID 156, hadoop07, executor 2): java.lang.ArrayI...原创 2020-02-28 10:42:53 · 2164 阅读 · 0 评论 -
hbase支持的动态配置项
hbase 3.x支持的动态配置项hbase中不重启服务能动态更新的配置项有:hbase.ipc.server.fallback-to-simple-auth-allowedhbase.cleaner.scan.dir.concurrent.sizehbase.regionserver.thread.compaction.largehbase.regionserver.thread.co...原创 2018-11-13 16:44:19 · 1313 阅读 · 0 评论 -
Hbase报错解决方法ERROR: KeeperErrorCode = NoNode for /hbase/master
hbase放了一段时间之后,发现运行命令时报NoNode for /hbase/master异常,其他如create等等命令也是如此,详细报错信息如下:hbase(main):005:0> statusERROR: KeeperErrorCode = NoNode for /hbase/masterFor usage try 'help "status"'Took 8.176...原创 2018-11-09 10:36:12 · 77890 阅读 · 9 评论 -
kafka和rabbitmq对比(超详细,从实战维度比较)
kafka介绍kafka是apache开源的消息队列顶级项目之一,在大数据场景下使用较多,由linkedin开源,目前社区活跃,全球较多组织开始使用kafka来进行数据交换。rabbitmq介绍RabbitMQ是流行的开源消息队列系统,用erlang语言开发。RabbitMQ是AMQP(高级消息队列协议)的标准实现。kafka和rabbitmq全面对比分析对比项kafkar...原创 2018-10-21 23:41:22 · 111410 阅读 · 10 评论 -
kafka topic配置(超详细的核心配置项说明)
topic核心配置num.partitions 分区数量 设置策略 评估单分区吞吐量,考虑总的吞吐量 考虑消费者个数 可用的空间和贷款 分区大小限制log.retention.ms topic数据保留时长 默认通过log.retention.hours配置时间,默认值为168小时,也就是7天 等同 log.retentions.hours log.reten...原创 2018-10-21 22:53:22 · 8038 阅读 · 0 评论 -
kafka server broker参数配置
kafka broker的server配置路径为 $ZOOKEEPER_HOME/config/server.properties中,可根据需要进行配置kafka broker 核心配置#broker id,从0开始broker.id = 0#broker端口port = 9092#zookeeper连接信息zookeeper.connect = localhost:2181#消息...原创 2018-10-21 22:47:13 · 1221 阅读 · 0 评论 -
kafka介绍(详细讲解kafka的前世今生和功能特色,优缺点)
kafka介绍,又作卡夫卡,kafukakafka介绍kafka研发背景kafka名字的由来kafka的设计目标:kafka历史kafka的优点kafka的缺点kafka介绍kafka是一个比较经典的消息发布和订阅系统,也是大数据种用作数据交换的核心组件之一,以并发量大,社区活跃备受广大组织的喜爱,国内也有人称之为卡夫卡,kafuka。kafka有几个不同的衍生版本,这里所说的kafka是指 ...原创 2018-10-21 22:33:38 · 15882 阅读 · 0 评论 -
hive shell查询时永久显示字段名或显示头(永久生效,不代表名,3种方案)
介绍hive初步部署完成时,默认关闭了打印头的显示,在查询时不显示字段名,需要进行配置设置才会显示;配置以前,查询数据时,不显示字段名称,效果如下: hive> select * from tmp_mult_partition limit 5; OK1 a1 a2 b1 c12 a2 a2 b1 c13 a3 a2 b1 c14 a4 a2 b1 c15 a5 a2 ...原创 2019-05-26 23:10:28 · 3602 阅读 · 0 评论 -
在hive中创建hbase表的映射,便于数据分析
创建hive映射hbase表drop table if exists user_detail;CREATE EXTERNAL TABLE user_detail(rowkey STRING,detail STRING)STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITH SERDEPROPERTIES ("hbas...原创 2019-02-15 11:17:06 · 941 阅读 · 0 评论 -
scala、java认证kerberos的hdfs和spark
代码目录结构LoginUtil用于认证基于kerberos和LDAP的大数据平台,package util;import java.io.File;import java.io.IOException;import java.util.HashMap;import java.util.Map;import javax.security.auth.login.AppConfig...原创 2020-03-01 21:00:53 · 1217 阅读 · 1 评论 -
centos7 openldap编译安装(含部署日志)
########################################OS:CentOS Linux release 7.3.1611 (Core)db:berkeleydb-5.1.29lpad:openldap-2.4.48######################################################################解压ta...原创 2019-07-31 22:52:28 · 1282 阅读 · 1 评论 -
难点!干货!经验证!生产Elasticsearch超大集群中如何让主分片(shards)均匀分布,且不需要重启服务?(详细分析原因和解决之道)
elasticsearch在实际生产应用中,经常由于es节点的上下线检修维护,或则由于索引设置的调整,常常会导致索引主分片和副本分片分布不均匀的问题。由于elasticsearch中主分片主要用于写操作,副本分片用于读操作,不均匀的主分片和副本分片分布,可能导致数据的读写性能不稳定或性能下降。原创 2020-05-14 17:10:37 · 2822 阅读 · 0 评论 -
Get elasticsearch生产集群重建索引reindex正确姿势
文章目录背景介绍操作和优化方法步骤一、新建空索引,按照业务规划设计进行创建步骤二、重建索引准备,禁用刷新和副本复制步骤三、重建索引,并通过参数设置加快索引重建效率步骤四、恢复新索引副本数和刷新间隔步骤五、检查索引重建情况elasticsearch _reindex api详细介绍request parameter 请求参数详解request body 请求主体参数详解response Body背景介绍在实际的业务生产中,经常由于主分片的调整,或者数据的迁移,索引名称规则的改变,都可以通过索引重建的方式来原创 2020-05-13 22:11:01 · 1656 阅读 · 0 评论 -
Elasticsearch常见报错和处理方法
java客户端连接elasticsearch报错:Exception in thread “main” NoNodeAvailableException[None of the configured nodes are available: [{#transport#-1}{weOTC4XgTLe1d-_ApCpjmg}{localhost}{127.0.0.1:8200}]]案例一、由于java客户端配置es端口不正确,导致报Exception in thread “main” NoNodeAvaila原创 2020-05-12 18:33:52 · 3583 阅读 · 0 评论 -
elasticsearch java 客户端(client)连接es集群方式(官方详细文档,实测有效)
elasticsearch java 客户端api示例参考官方文档,使用elasticsearch java客户端对es进行操作。elasticsearch maven依赖 <properties> <es.version>7.6.2</es.version> <gson.version>2.8.6</gson.version> </properties> <原创 2020-05-12 18:19:26 · 4094 阅读 · 0 评论 -
Elasticsearch(ES)生产集群健康状况为黄色(yellow)的官方详细解释、原因分析和解决方案(实测可用)
文章目录介绍elasticsearch健康装填查询接口`/_cluster/health`接口反馈内容解释如下:处理方案步骤一、找到elasticsearch集群异常的索引步骤二、查看es集群健康信息,以及黄色状态索引的settings信息进行分析步骤三、分析并解决问题介绍 Elasticsearch(ES)集群状态显示黄色时,使用cerebro会提示显示黄色原因,如果使用其他工具,则可以通过健康检查api查看集群状态GET /_cluster/health。调用健康检查apiGET /_clus原创 2020-05-12 16:05:36 · 48968 阅读 · 5 评论 -
elasticsearch curl请求示例
使用curl请求elasticsearch查询信息格式如下:curl -X<VERB> '<PROTOCOL>://<HOST>:<PORT>/<PATH>?<QUERY_STRING>' -d '<BODY>'被 < > 标记的部件:VERB适当的 HTTP 方法 或 谓词 : GET、...原创 2019-08-17 16:39:22 · 628 阅读 · 0 评论 -
elasticsearch 报错 ERROR: [2] bootstrap checks failed system call filters failed to install; check th
[2018-11-16T13:53:00,839][WARN ][o.e.b.JNANatives ] unable to install syscall filter: java.lang.UnsupportedOperationException: seccomp unavailable: requires kernel 3.5+ with CONFIG_SECCOMP an...原创 2018-11-16 14:08:06 · 4345 阅读 · 0 评论 -
hbase-2.1.0 + zookeeper-3.4.10 + hadoop-3.1.1 + elasticsearch-6.4.2 +jdk1.8.0_191 从零开始完整部署笔记(超详细)
##################### 环境 ###########################OS版本号[troll@standalone softs]$ cat /etc/centos-releaseCentOS Linux release 7.5.1804 (Core)#软件版本号hadoop-3.1.1hbase-2.1.0jdk1.8.0_191scala-2....原创 2018-11-07 19:14:51 · 911 阅读 · 0 评论