
大数据组件学习
码上中年
目前从事于开发大数据平台开发,主要是开发特征工程工具、机器学习算法。然后将平台开发好供公安系统进行各种数据挖掘,分类,预测。
展开
-
hive实际操作
1. 建表语句create table person( id string, name string, age int ) row format delimited fields terminated by ';' stored as textfile;2. 加载数据如进表load data local inpath '/usr/hive/data/person.txt' into table person;...原创 2021-05-26 16:45:41 · 112 阅读 · 0 评论 -
kettle整合
1. kettle整合hadoop hdfs1.1 从Hadoop集群etc/hadoop下拷贝core-site.xml和hdfs-site.xml1.2 放入data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh510下面1.3 修改data-integration/plugins/pentaho-big-data-plugin/plugin.properties指定hadoop配置文件识别目录:act原创 2021-05-26 16:45:23 · 157 阅读 · 0 评论 -
kettle学习
1. kettle安装部署1.1 安装包下载链接: https://pan.baidu.com/s/1AhxnpUzuHTGaOESAWHxNvQ 密码: sppw1.2 windows安装运行Spoon.bat1.3 mac安装运行Spoon.sh1.4 Linux安装直接解压2. 实际使用2.1 先在windows或者mac开发好转换或者作业的工作流文件2.2 然后将工作流文件放在Linux上直行即可 2.2.1 pan.sh 执行转换文件 ./pan.sh -file:原创 2021-05-25 15:30:38 · 168 阅读 · 0 评论 -
大数据面试小结
hdfs 1. hdfs读流程: 1.1 程序提交写请求给客户端 1.2 client对数据进行block切分 1.3 向namenode寻求数据写入的位置datanodes 1.4 client获取到datanodes信息后,开始向datanode写数据以及副本同步 1.5 写完后向程序反馈写完相应java HashMap: 数组+链表+红黑树(jdk8) 1.1. 线程不安全 1.2. 结构Array(Entry1<T,T>->Entry<T,T&g..原创 2021-04-22 01:43:26 · 223 阅读 · 0 评论 -
Canal之HA高可用
1. canal高可用1.1 canal的HA分为两个部分:clientHA和serverHA1.2 canal的HA需要借助于zookeeper来实现高可用1.3 serverHA:针对每一个实例instance要做到同一时间只能有一个处于running状态,其他处于standby状态1.4 clientHA:同一时间只能有一个client进行接收instance的数据,否则无法保证有序2. canal serverHA实现2.1 修改canal server的配置文件canal/conf/原创 2021-03-17 23:07:52 · 570 阅读 · 1 评论 -
shell一键免密互信
#!/bin/bashinstallpath=$(cd `dirname $0`; pwd)echo "安装路径: ${installpath}"#myip=`ip addr | grep 'state UP' -A2 | tail -n1 | awk '{print $2}' | cut -f1 -d '/'`#echo "当前主机IP: ${myip}"filepath=${installpath}/filesecho "由于当前环境还未做免密 所以需要安装远程带密码的工具 sshpass"原创 2021-03-10 18:03:00 · 341 阅读 · 0 评论 -
shell一键安装hive
#!/bin/bash# 脚本启动方式 bash hive_install.sh 172.16.149.150 3306 root 123456ipath=/opt/bigdataecho "安装hive集群"installpath=$(cd `dirname $0`; pwd)echo ${installpath}filepath=${installpath}/filesecho "解压hive压缩包"tar -xvf ${filepath}/hive.tar.gz > /dev/n原创 2021-03-10 18:00:56 · 312 阅读 · 0 评论 -
shell一键安装Kafka(3节点)
shell一键部署jdk_三台shell一键部署Scala_三台1. 准备好三台已经安装好jdk和scala的机器172.16.149.150 cdh-master172.16.149.151 cdh-worker1172.16.149.152 cdh-worker22. 编写代码#!/bin/bashipath=/opt/bigdataecho "安装kafka集群"installpath=$(cd `dirname $0`; pwd)echo ${installpath}fil原创 2021-03-10 17:59:14 · 271 阅读 · 0 评论 -
shell一键安装zookeeper(3节点)
shell一键部署jdk_三台1. 准备好三台已经安装好jdk的机器172.16.149.150 cdh-master172.16.149.151 cdh-worker1172.16.149.152 cdh-worker22. 编写脚本#!/bin/bashipath=/opt/bigdataecho "安装zookeeper集群"installpath=$(cd `dirname $0`; pwd)echo ${installpath}filepath=${installpath}原创 2021-03-10 17:57:38 · 236 阅读 · 0 评论 -
shell一键安装hadoop(3节点)
shell一键部署jdk_三台1. 准备好三台已经安装好jdk的机器172.16.149.150 cdh-master172.16.149.151 cdh-worker1172.16.149.152 cdh-worker22. 编写脚本#!/bin/bashipath=/opt/bigdataecho "安装hadoop集群"installpath=$(cd `dirname $0`; pwd)filepath=${installpath}/filesecho "解压hadoop压缩原创 2021-03-10 17:41:54 · 217 阅读 · 0 评论 -
shell一键安装spark(3节点)
shell一键部署jdk_三台shell一键部署Scala_三台1. 准备好三台已经安装好jdk和scala的机器172.16.149.150 cdh-master172.16.149.151 cdh-worker1172.16.149.152 cdh-worker22. 编写脚本#!/bin/bashipath=/opt/bigdataecho "安装spark集群"installpath=$(cd `dirname $0`; pwd)echo ${installpath}fil原创 2021-03-10 17:45:03 · 287 阅读 · 0 评论 -
canal监控mysql到Kafka(protobuf存储)
紧接上一篇:Canal实时监控mysql数据库1. canal客户端代码package com.qu.canal;import com.alibaba.fastjson.JSON;import com.alibaba.otter.canal.client.CanalConnector;import com.alibaba.otter.canal.client.CanalConnectors;import com.alibaba.otter.canal.protocol.CanalEntry;原创 2021-03-08 01:10:13 · 605 阅读 · 0 评论 -
Canal实时监控mysql数据库
1. canal原理概述*** canal将自己伪装成mysql的从节点,当mysql的binlog日志发生改变,作为从节点的canal服务端会发生dump行为,拿到日志变化的数据,然后通过canal客户端进行交互获取到变化数据,进行实时处理2. 实现条件*** mysql5以上、mysql作为主节点开启binlog日志功能2.1 修改mysql配置文件vi /etc/my.cnf [client] user=root password= port = 3306 socket = /原创 2021-03-06 12:51:17 · 2161 阅读 · 2 评论 -
实时数仓:项目学习
1. 技术选型*** 当下flink流行度又高、又稳定。成为当下实时计算最优选择2. 项目分析2.1 业务数据:一般存储在mysql(需要canal做实时采集)2.2 日志数据:一般以log文件形式存在,采用日志采集框架flume做实时采集3. 实现方案3.1 数据少于20万,可直接通过实时查询mysql,适当对关联字段做索引即可3.2 数据量比较大,mysql查询时间无法达到查询效果或者实时性太差4. 实时数仓架构...原创 2021-03-06 11:26:25 · 2331 阅读 · 6 评论 -
Kafka面试集结
1. Kafka的哪些设计让他有如此高的性能 1.1 分布式 1.2 顺序写磁盘(减少磁盘寻指针的过程) 1.3 零拷贝(内存读写不过代码)2. Kafka Controller如何根据offset查找相应的消息 1.1 二分法先在index文件定位 1.2 然后查找log文件数据3. Kafka有哪些选举 1.1 Controller的资源争夺 1.2 leader的ISR选举:根据数据同步的时间快慢4. Kafka重复消费、遗漏消费 1.1 重复消费: 先处理数据,后提交offse原创 2021-03-04 00:19:25 · 329 阅读 · 3 评论 -
Kafka监控工具kafka-eagle安装使用
1. 修改Kafka启动脚本kafka-server-start.sh,并分发到各节点if [ "x$KAFKA_HEAP_OPTS" = "x" ]; then export KAFKA_HEAP_OPTS="-server -Xms2G -Xmx2g -XX:PermSize=128m -XX:+UseG1GC -XX:MaxGCPauseMillis=200 -XX:ParallelGCThreads=8 -XX:ConcGCThreads=5 -XX:InitiatingHeapOccup原创 2021-03-02 23:36:47 · 356 阅读 · 0 评论 -
***实现Kafka完全不重复消费或者丢失消费
1. 存在原因:丢失消费/重复消费1 自动提交offset: 1.1 当自动提交时间为1s时,间隔时间达到1s,offset(100)已经提交,但是数据处理尚未完成(只处理了80)出错了(挂了),此时从新启动后会从已经提交的offset(100)开始消费处理,那么81-100这些数据就未处理,导致丢失消费 1.2 当自动提交时间为3s时,数据1s已经处理完了一批,突然挂了,由于提交时间未到,offset未提交,重新启动时,会重复处理已经处理过的数据,导致重复消费2 官方手动提交(与上雷同问题) 2原创 2021-03-02 00:26:21 · 1299 阅读 · 5 评论 -
Kafka系统学习
1. 概念1. Kafka是一个分布式的基于发布/订阅的消息队列,应用于大数据实时处理。 1.1 消息队列就是为了让消费者跟生产者解耦,实现高效,但是安全性肯定降低,需要额外处理。 1.2 大数据一般处理流程:日志收集者(flume) ---> Kafka ---> 消息消费者(spark、flink)。 1.3 消息队列分两种: 1.3.1 点对点(一对一) 1.3.2 发布/订阅(一对多)2. 架构#mermaid-svg-hRlFqWswHqAu39I1 .label原创 2021-01-11 20:49:41 · 1095 阅读 · 3 评论 -
hadoop集群安全重启
master节点cd /opt/bigdata/hadoop/hadoop-3.2.0/sbin./stop-all.sh然后三个节点都进行cd /opt/bigdata/hadooprm -rf dfs/*mkdir -p dfs/data mkdir -p dfs/namecd /opt/bigdata/hadoop/hadoop-3.2.0/etc/hadoopvi yarn-site.xml加入下面配置: <property> <.原创 2020-06-02 17:05:50 · 792 阅读 · 0 评论 -
Docker学习过程-由浅到深
Docker学习过程-由浅到深1. Docker安装 1.1 检查Linux内核版本 uname -r 查看centos cd /etc ll | grep centos 1.2 yum更新 yum update 1.3 卸载旧版本的docker yum remove docker \ do...原创 2020-02-17 17:58:55 · 358 阅读 · 0 评论 -
Spark on Yarn 最佳运行参数调优-计算方式
Spark on Yarn 参数调优-计算方式1. 整理机器信息机器数: 3台 # 查看物理CPU个数 cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l 或grep 'physical id' /proc/cpuinfo | sort -u | wc -l 每台机器核数:8核 # 查看每个物理CPU中core的个...原创 2019-11-20 17:55:08 · 1448 阅读 · 0 评论 -
CDH安装失败后重启预操作
CDH安装失败后重启预操作0. 关闭cdh服务 主节点:# service cloudera-scm-server stop Agent节点:# service cloudera-scm-agent stop1. 删除Agent节点的UUIDrm -rf /var/lib/cloudera-scm-agent/cm_guid2. 清空主节点CM数据库,再次创建mysql -u r...原创 2019-11-15 10:22:10 · 326 阅读 · 0 评论 -
大数据组件_Kafka学习
Kafka学习基本概念1. Broker: 每一台kafka机器节点就是一个broker2. Producer: 消息生产者 往kafka的topic写数据3. Consumer: 消息消费者 从kafka的topic读取数据4. Topic: 主题-虚拟概念 针对操作而言 consumer需要指定topic读取相应数据 producer需要指定topic写数据5. Partit...原创 2019-10-23 08:36:05 · 367 阅读 · 0 评论