
学习笔记
文章平均质量分 80
Apache_Jerry
你的眼睛在发光 --大数据数据仓库小职员一名
展开
-
CDH6.3.2 端口使用整理
CDH 6.3.2端口使用说明:ClouderaManager 版本:6.1.17180: Cloudera Manager WebUI端口7182: Cloudera Manager Server 与 Agent 通讯端口8087: Activity Monitor Web UI 端口9087: Port for Activity Monitor’s HTTPS Debug page9999: Activity Monitor 侦听端口9998: 公开 Activity Monit原创 2021-03-30 11:26:18 · 3607 阅读 · 0 评论 -
自己 spark 优化心得
Spark 优化资源调优1. 阻塞间隔有一个配置参数:spark.streaming.blockInterval,它的意思是每间隔多少秒后,Spark才把接收到的数据组成数据块存到Spark中。官网推荐的最小值是50ms,默认值200ms。假设实例化InputDStream时设置的Duration(batch interval)为1秒(1000ms),那么任务执行时,总共有 1000 / 2...原创 2020-04-15 16:45:12 · 306 阅读 · 0 评论 -
sqoop import 命令常用参数
sqoop import 命令常用参数表1.常用参数参数描述--connect指定JDBC连接字符串--connection-manager指定要使用的连接管理器类--driver手动指定要使用的JDBC驱动程序类--hadoop-mapred-home覆写$ HADOOP_MAPRED_HOME--help打印使用说明--passw...翻译 2020-02-27 11:43:42 · 3301 阅读 · 0 评论 -
Impala 管理(准入控制)
Impala 管理(准入控制)1. 准入控制和查询队列 准入控制是Impala 的一个功能,为的是避免对一个繁忙的CDH集群产生过多的内存压力。 准入控制是一个轻量级的去中心化的系统,它适用于负载主要是Impala查询的集群,它以软限制的方式去控制Impala 相对稳定的方式去使用内存,而不是要么执行要么取消的方式限制资源的使用。 但是准入控制并不像YARN 那样那么了解集群的整体负...原创 2020-01-16 15:52:35 · 1366 阅读 · 0 评论 -
关于KUDU 的一些使用建议
关于KUDU 的一些使用建议1. Kudu 的分区字段选择:正常的分区字段就是Kudu 表的主键字段进行范围分区或者hash分区,这里建议加上一个 与业务时间有关的字段作为联合主键,这样可以缓解数据倾斜。有人建议使用 主键进行hash 分区,时间字段进行范围分区。2. WAL 的存储目录:官方建议,WAL最好是单独用闪存盘给Kudu 的WAL 搞一个存储目录。但是一般能给到SSD就算不错...原创 2020-01-15 17:06:28 · 1121 阅读 · 0 评论 -
Impala 三大组件:Impala Daemon, Impala Statestore, Impala Catelog
Impala 三大组件:1. Impala Daemon:功能: 负责读写数据文件,接受来自 Impala-shell, ODBC,Hue 和 JDBC 的查询请求,然后与集群中的其他节点分布式并行工作,将本节点的查询结果返回给中心协调者节点。查询流程:我们向一个 Impalad 发送一个 SQL,这个Impalad 就要负责解析sql, 生成查询计划树,将执行计划分发给本节点的 ...原创 2020-01-15 11:37:05 · 3579 阅读 · 3 评论 -
Impala 的广播式关联 和 分区后散列关联 , Impala 如何计划并执行分布式关联查询
Impala 的广播式关联 和 分区后散列关联Impala 如何计划并执行分布式关联查询广播式关联:Impala 默认的关联方式就是广播式关联,它的原理是 在多张表进行关联时,将最小的数据集发送到执行sql 计划的 Impalad 中,Impalad接收到数据以后,按照哈希表的方式存放到内存中,在就近读取大的表数据,进行匹配。分区后散列关联:这个关联方式,会将sql 中涉及的表按照相同的...原创 2020-01-13 15:07:13 · 603 阅读 · 0 评论 -
python 字符串中插入变量
比较好的方法是使用 python的 format() 方法>>> ss = '{name} is a {animal}'.format(name='TOM', animal='cat')>>> ss'TOM is a cat'亦args = { 'name': 'TOM', 'animal': 'cat',}>>> ss...原创 2019-12-19 15:43:52 · 430 阅读 · 0 评论 -
kudu 的基本架构 、存储结构与读写原理
kudu 的基本架构与存储结构1. 基本架构TMaster and TServerTMaster 主要用来管理元数据,即tablet 和 表的基本信息,监听TServer的状态,TMaster之间通过raft协议进行数据同步TServer 主要用来管理tablet 。tablet 负责这一张表的某块内容的读写,接受其他tablet leader 传来的同步信息,至于什么是tablet,...原创 2019-03-19 18:54:22 · 3652 阅读 · 4 评论 -
impala 查询计划树
impala 查询计划树impala介绍MPP什么意思:即大规模并行处理impala 是一种新型的MPP查询引擎,每一个impala执行的sql,可能同时在多个工作节点上进行运算,每一个节点执行查询任务的一部分,然后通过网络通信传递给下一个子任务,中间数据尽可能不落地。impala可以处理的数据:HBASE,HDFS,KUDUimpala架构这个架构图说明了impala的架构,也说明...原创 2019-03-19 18:51:24 · 2098 阅读 · 2 评论 -
echarts 实时数据展示
echarts 实时数据展示1. 构建一个web项目 完成从后台拉取MySQL的数据到前端的准备工作,我自己是用的ssm框架,这里是属于web的工作,不过多赘述。2.先写一个简单的echarts展示,测试下你的echarts是否可用1) 到echarts的中文官网上下载ecahrtsde 的4.2最新版,不用去apache上下载,咱们有中文版的,一般下载源代码或者完整版这两种都可以2...原创 2019-01-19 10:21:18 · 8709 阅读 · 3 评论 -
scala 学习总结
Scala 学习备忘要点一、scala 基础Scala 中所有的值都是有类型的,包括数值和函数Scala 中 不需要带 分号 ;中括号代表 [ ] : 泛型“+” ,“ - ” ,“ * ” ,“ / ” 在 Scala 里面都只是 方法定义方法:def 方法名称 (参数列表) 返回类型 方法体def add(x:Int,y:Int) :Int...原创 2018-10-24 12:51:50 · 516 阅读 · 0 评论 -
standalone-cluster模式下出现 NoSuchFileException
1.出现的问题是:NoSuchFileException很郁闷,明明就在那,可是他就是找不到。。。2.解决方法: 将jar包上传至hdfs 上然后运行如下命令3.控制台不会打印太多的东西,我们可以进入8080 这里查看集群的运行状况,可以看见有一个节点正在running4.等了一会running 结束,任务finished5. 进入50070 这个页面查看自己定义的输出目录,会...原创 2018-10-25 21:03:18 · 1236 阅读 · 0 评论 -
ETL简介和关于ETL的一些问题
关于 E T L 的 相关内容:什么是数据挖掘(工程师)数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。什么是ETL(工程师) — 数据仓库技术Extra...原创 2018-10-25 08:40:50 · 999 阅读 · 0 评论 -
Hadoop 生态圈各个模块的启动命令 以及 简单配置 的配置要点(CentOS 6.9)
一、Hadoop1.1 hadoop 的启动命令在 /etc/profile 里面自己配好环境变量start-dfs.sh # 启动hdfsstart-yarn.sh # 启动yarnstart-all.sh # 启动HDFS 和 yarnweb上可以通过 50070 和 8088 两个端口访问 hdfs 和 yarn 。1.2 hadoop 的配置...原创 2018-10-13 17:52:44 · 356 阅读 · 0 评论 -
移动公司收费项目的总结
移动公司开户和收费的项目总结:个人的总结,项目经验不多,坑定有错误和疏漏。1.批量修改和批量删除的重点批量删除1.在批量删除里面,难得是如何将被选中的多选框(checkbox)按钮的值一次性的都拿出来,并传到后台中去。 -这里我们选择使用数组,后台的Controller层中,用一个String{] 或 Integer[] 等等数组来承载这些被选中的值2.后台拿到这些值以后就好...原创 2018-10-11 20:05:04 · 303 阅读 · 0 评论 -
配置简单的linux 的几个操作步骤(Cent OS)
vi /etc/sysconfig/network-scripts/ifcfg-eth0 //修改网卡的配置文件vi /etc/hostsvi /etc/sysconfig/network关闭IP防火墙service iptables stopchkconfig iptables off配置谷歌的DNS服务器vi /etc/resolv.conf在配...原创 2020-05-21 15:54:37 · 519 阅读 · 0 评论