- 博客(36)
- 资源 (11)
- 收藏
- 关注
原创 DAMA数据管理各职能总结
文档和内容管理:通过计划、实施控制活动以存储、保护和读取电子及物理档案中的数据(包括文档、图形、图片、音频和视频)数据操作管理:在数据全生命周期内计划、控制和支持机构化数据资产,包括从数据创建、获取到数据归档和清除的过程。数据安全管理:通过计划、发展并执行数据安全政策和措施,为数据和信息提供适当的认证、授权、访问和审计。数据战略——愿景、使命、总线、案例、目标、目的、原则、组件、度量、实现路线图。1.定义、审批、沟通数据战略、政策、标准、架构、流程和度量体系。
2024-06-26 12:02:28
554
原创 2024大数据面试题汇总(完善中。。。)
自己汇总的面试题,涉及到大数据的常用组件,将持续更新... ...部分图片不全,后期继续完善更新记录:2024-6-18 初版0.1.0 :hadoop,hbase,doris,hive,mysql,es2024-6-26 1.0.0 : java,spark,redis,kafka,flink,kafka,数据仓库
2024-06-18 16:10:07
2138
原创 手把手搭建DORISDB
一、下载dorisdb下载地址dorisDB注:下载地址会从www.dorisdb.com 跳转到 www.starrocks.com 两者同一产品或者可选择本人安装使用的版本 dorisDB二、解压安装: tar -xvf DORIS-0.14.7-release-binary.tar.gz三、配置fe: cd /opt/soft/DORIS-0.14.7-release/fe/conf vim fe.conf(根据需要修改参数) cd /opt/soft/DORIS-0
2021-11-29 16:24:43
1352
原创 CDH安装教程
一、准备工作:1、绑定IP 192.168.197.129 ,192.168.197.130 ,192.168.197.1312、更改主机名 /etc/hosts192.168.197.129 hd01192.168.197.130 hd02192.168.197.131 hd033、配置免密登录:1、各台虚拟机执行:ssh-keygen -t rsa;2、cd .ssh cat id_rsa.pub>>authorized_keys ;3、scp a
2020-07-05 21:44:06
555
原创 centos7环境yum安装mysql
环境:CentOS-7.0-1406-x86_64-DVD.iso一、yum源安装要在线安装发现yum源没有mysql安装包,更换几次yum源,发现行不通2)需要到mysql的官网下载yum repo配置文件。下载命令:wget https://dev.mysql.com/get/mysql57-community-release-el7-9.noarch.rpm3)然后进行repo的安装:rpm -ivh mysql57-community-release-el7-9.noarch.
2020-07-03 21:33:46
5536
原创 数据结构(持续更新)
数据结构:数据结构就是数据的组织方式1、稀疏sparsearray数组:当一个数组中,大部分为0或同一个值时,使用稀疏数据可以缩小规模。稀疏数组记录了数据几行几列,多少不同的值。例:用稀疏数组记录二维数组...
2020-06-07 17:11:26
162
原创 linux基础知识问答
1.查看当前目录ll -a ;ll ;ls2.隐藏文件、文件夹以什么开始,怎样查看以 . 开始 ll -a3.ls -l 等价于什么?ll4.级联创建文件夹mkdir -p dir1/dir2/dir35.创建文件哪几种方式echo “” > a.txtvim b.txt6.cp和mv谁快? 能不能在cp 、mv过程,顺便修改名称呢?mv快 可以改名称7....
2020-04-23 10:28:16
215
原创 HBASE 生存期 TTL
HBASE TTL生存期大家都知道hbase有个version版本号,所谓的version其实就是同一条数据插入不同的时间戳来实现的,在hbase底层的存储是基于时间戳排序的,所以每次我们查到的数据都是最新的版本,除非我们指定了要读取特定的时间范围的数据。即hbase都是根据时间戳进行数据版本的迭代,但是,hbase还有个TTL(Time To Live)数据生存期,从官网找到如下关于TTL描述...
2020-01-06 09:09:02
665
转载 修改网卡名由ens33改成eth0
Linux 操作系统的网卡设备的传统命名方式是 eth0、eth1、eth2等,而 CentOS7 提供了不同的命名规则,默认是基于固件、拓扑、位置信息来分配。这样做的优点是命名全自动的、可预知的,缺点是比 eth0、wlan0 更难读,比如 ens33 。一、命名规则策略规则1:对于板载设备命名合并固件或 BIOS 提供的索引号,如果来自固件或 BIOS 的信息可读就命名,比如eno1,这...
2019-07-19 16:01:42
357
原创 非图形化设置虚拟机静态IP
编辑ifcfg-ens33文件:vim /etc/sysconfig/network-scripts/ifcfg-ens332,重启电脑reboot
2019-07-19 16:00:51
270
原创 vim模式下解除高亮显示的搜索词
linux文件在vim命令模式下通过 /时会高亮展示例:/s涉及隐私、及安全可以通过搜索不存在的词去掉高亮/haha可以通过 : 再次去掉红色的提醒:
2019-07-19 16:00:19
320
原创 scala 连接Mysql
导入相关依赖,网上很多少了postgresql-9.3-1101.jdbc4.jar 相关jar包,包不能正常引入 <dependency> <groupId>org.specs</groupId> <artifactId>specs</artifactId> <version>1.2.5</ver
2019-07-19 15:59:50
147
原创 hadoop2.0 副本冗余策略和hadoop3.0 纠删码技术
In coding theory, an erasure code is a forward error correction (FEC) code under the assumption of bit erasures (rather than bit errors), which transforms a message of k symbols into a longer message (code word) with n symbols such that the original messa
2019-07-15 07:18:45
3058
原创 IDEA安装hadoop插件
一、下载idea-hadoop插件二、选择File->Settings三、选择 Plugins->右侧窗口点击 Install plugin from disk…
2019-07-13 15:27:41
8070
5
原创 安装redis集群
安装3主6从redis集群1、下载redis2、解压redistar -xvf redis-3.2.11.tar.gz3、安装rediscd redis-3.2.11/make && make install4.在redis-3.2.11目录下创建9个文件夹mkdir 8000 8001 8002 8003 8004 8005 8006 8007 8008 ...
2019-07-03 19:16:27
212
原创 B+树JAVA实现
B+树是一种多路平衡查找树,是对B树(B-Tree)的扩展.一个M阶的B树的定义为:1.每个节点最多有M个子节点;2.每一个非叶子节点(除根节点)至少有ceil(M/2)个子节点;3.如果根节点不是叶子节点,那么至少有两个子节点;4.有k个子节点的非叶子节点拥有k-1个键,键按照升序排列;5.所有叶子节点在同一层;与B树的区别在于:1.非叶节点仅有索引作用,具体信息均存放在叶节点;...
2019-05-17 14:57:14
2797
3
原创 java基础之原码反码补码
数据在内存中是以二进制的方式存储的.原码是数据本身的二进制.对于正数正码,反码,补码一致.对于负数:反码:符号位不变,其它位取反.0 -> 1; 1 -> 0;补码:在反码的基础上+1;X=-101011 , [X]原= 1010_1011 ,[X]反=1101_0100,[X]补=1101_0101...
2019-03-23 16:43:38
157
原创 JAVA基础之基本类型
1.8大基本数据类型:byte (1个字节) 、 char (2个字节) 、 short(2个字节) 、 short (4个字节) 、 long (8个字节) 、 float (4个字节) 、 double (8个字节)2.float和long类型long 整型数,在内存中占用8个字节共64位,表示的数值有264 (-263-263)float在内存中占4个字节,共32位,在内存中是这样的...
2019-03-22 10:51:17
334
原创 环形缓冲区
环形缓冲区,是空间换时间的典型实现,是写入和读取,遵循FIFO原则.特点:1.FIFO2.当缓冲区用完时,丢弃最久的历史数据,3.定长4.遍历可能发现追逐问题典型实践有linux内核的环形缓冲区,hadoop的suffle流程的缓冲区,要实现环形缓冲区只要解决以下四点即可:1.处理超出缓冲区大小的的索引;2.缓冲区满和缓冲区空;3.入队、出队;4.缓冲区中数据长度计算。ja...
2019-02-26 10:18:25
566
原创 CAS无锁算法
CAS即compare and swap(比较再交换).是一种解决锁机制带来的问题方案.锁分为悲观锁和乐观锁,但都是一种悲观策略,会带来诸多问题:如多个线程要等待共同的被占用资源,优先级高的线程等待优先级的线程,性能问题.CAS是一种乐观策略.有三个值:V(内存值[原值]),E(期待值[携带的原值]),N(新值[基于旧值经过运算后的新值]).只有当E=V时,才进行操作,否则不操作或重新运算....
2019-02-26 09:54:44
200
原创 spark-kafka-es项目开发问题汇总
1、spark连接kafka报错: Exception in thread &amp;quot;main&amp;quot; java.lang.ExceptionInInitializerError at org.apache.spark.streaming.dstream.InputDStream.&amp;amp;lt;init&amp;amp;gt;(InputDStream.scala:78) at org.ap
2018-12-20 17:13:10
377
原创 ngnix实现es负载均衡
1、解压:tar -xvf nginx-1.14.1.tar.gz2、进入到解压目录:cd /home/app/nginx-1.14.13、编译安装:sudo ./configure sudo make sudo make install 4 、进入安装目录cd /usr/local/nginxsudo vim conf/nginx.conf5、编辑配置文件...
2018-12-10 19:51:10
903
1
原创 停止kibana
kibana启动后通过jps或jobs找不到对应的PID但是启动的时候却报:{"type":"log","@timestamp":"2018-11-21T06:32:59Z","tags":["fatal"],"pid":22160,"message":"Port 5601 is already in use. Another in
2018-11-21 14:48:19
6591
1
转载 Elasticsearch性能优化与配置
阅读原文一、参数优化文件句柄Linux中,每个进程默认打开的最大文件句柄数是1000,对于服务器进程来说,显然太小,通过修改/etc/security/limits.conf来增大打开最大句柄数* - nofile 65535虚拟内存设置max_map_count定义了进程能拥有的最多内存区域sysctl -w vm.max_map_count=262144修改/etc/ela...
2018-11-15 17:49:40
652
原创 elasticsearch离线安装 head、cerebro、bigdesk
一:离线安装head插件二:离线安装cerebro插件三:离线安装bigdesk
2018-11-02 17:47:44
5383
11
原创 EKL日志平台架构概括
EKL日志分析平台是目前正在运行的日志处理项目。kibana使用的版本是4.5.3,因为较新版本的kibana页面比较酷炫,领导要求升级kibana。本来就是简单的一个组件的升级,结果因为兼容问题导致es、logstash、kafka都要升级。以下是日志平台现有服务器及组件分布情况:Zookeeper:*.*.*.157 (flower)*.*.*.194 (flower)*.*.*.2...
2018-11-02 10:24:40
6185
grunt-node离线包.zip
2019-07-17
elasticsearch-head-master.zip
2019-07-17
idea-hadoop-plugins.zip
2019-07-13
redis ruby gems离线安装集群相关包.rar
2019-07-03
elasticsearch-head,grunt,node离线安装包
2018-10-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人