- 博客(35)
- 收藏
- 关注
原创 HDFS文件系统中,Fsimage和Edits
当客户端对HDFS中的文件进行新增或者修改操作,操作记录首先被记入Edits日志文件中,当客户端操作成功后,相应的元数据会更新到内存数据中。文件块位置信息只存储在内存中,是在DataNode加入集群的时候,NameNode询问DataNode得到的,并且间断的更新。Fsimage和Edits文件都是经过序列化的,在NameNode启动时,它会将Fsimage文件中的内容加载到内存中,之后再执行Edits文件中的各项操作,使得内存中的元数据和实际的同步,存在内存中的元数据支持客户端读操作,也是完整的元数据。
2023-07-24 10:39:16
631
原创 HDFS的文件块大小(重点)
对于一般硬盘来说,传输速率为100M/s,一般设置块的大小128M,因为128是2的7次方,最接近于100M。比如,块的大小是1TB,传输这个1TB的数据会非常慢,并且程序处理这个1TB的数据时,也非常的慢。不是的,它只占用文件本身大小的空间,其它空间别的文件也可以用,所以这128M的含义是HDFS数据块的大小,和每个文件的大小没有关系。HDFS的块设置太小,会增加寻址时间。例如,块的大小是1KB,文件大小是100KB,这时候要分100个块来存储文件,读取文件时要找到100个块的地址,会大大增加寻址时间。
2023-07-24 10:16:48
2244
原创 springboot基于quartz实现自定义时间的定时调度
Quartz是一套轻量级的任务调度框架,只需要定义了 Job(任务),Trigger(触发器)和 Scheduler(调度器),即可实现一个定时调度能力。
2023-04-22 16:41:33
1266
原创 flink根据checkpoints状态恢复数据
说明flink消费kafak数据至ES在程序中已经启用了checkpoints1、启动flink程序[bigdata@cdh03 /bigdata/flink-1.7.2-client/sh]$cat submit-flink-yarn-merge.sh#!/bin/bash#-m 运行模式,这里使用yarn-cluster,即yarn集群模式。#-ys slot个数。#-ynm Yarn application的名字。#-yn task manager 数量。-yn
2021-07-02 14:20:27
5595
1
原创 Elasticsearch6.5.4破解x-pack
概要我们常常用kibana界面化操作ES数据库,这样就使得任何人只要知道我们ES数据库的地址和端口就可以任意操作我们的数据库,这样非常不安全,由此一个基于用户认证是否有权限访问和操作我们的数据库的的需求就诞生了,然后我们找到了这个X-pack插件,它能做什么呢?X-Pack 提供以下几个级别保护elastic集群1)用户验证2)授权和基于角色的访问控制3)节点/客户端认证和信道加密...
2020-10-21 10:01:28
2625
2
原创 Elasticsearch更新mapping
概述Elasticsearch 的 mapping 在创建 indices 时即已确定,无法更改。那么,当我们需要更新 mapping 时,该如何是好呢?基本思路当我们在创建一条索引时,添加好 mapping 后,可设置一个 alias 指向该索引,然后生产环境采用该 alias 来索引数据。当然,如果没有这样做的话,建议趁早备份,修改 API 。既然已创建的 indices 无法修改,我们可以重新创建一个新的 indices, 然后将原 indices 上的数据复制到新的 indices 上
2020-10-20 10:39:21
3991
原创 springboot2.x集成elasticsearch6.x
概述本博客基于SpringBoot-2.1.6.RELEASE、elasticsearch-6.5.4版本整理。1、maven依赖 <!-- elasticsearch启动器 (必须) 不能使用自带的es-start--> <dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch
2020-05-11 18:33:10
766
1
转载 linux安装Oracle11G
linux安装Oracle11G0、下载Orcle11Goracle10G/11G官方下载地址合集(直接迅雷下载)说明一下:[root@myYUn install]#中的myYUn等价于[root@iz2f570bi1k56uz install]#中的iz2f570bi1k56uz;这是为了界面效果调整的,但是有些没调整到,理解一哈。1、上传文件到服务器...
2019-12-18 10:17:45
277
原创 Elasticsearch 基于原有动态模板新增字段
概述记录一次自己在操作Elasticsearch数据库新增一个字段出现的问题,由于业务需求,我们需要往ES中新增了一个字段,该字段不能使用keyword类型,因为查询的时候需要对该字段进行模糊查询,这就要求我们在ES原来的模板中新增一个字段设置分词。1、设置分词ES自带了一些分词器,即在默认情况下,如果不对自己创建的索引做任何的设置和修改,ES会按照standard进行分词我业务中...
2019-09-24 10:58:48
6467
原创 Elasticsearch cardinality存在误差
概述cardinality 度量是一个近似算法。 它是基于 HyperLogLog++ (HLL)算法的。 HLL 会先对我们的输入作哈希运算,然后根据哈希运算的结果中的 bits 做概率估算从而得到基数。优点:性能快,亿级别的记录在1秒内完成 缺点:存在只能保证最大40000条记录内的精确,超过的存在5%的误差,不适合需要精确去重场景1、示例:GET ...
2019-06-20 17:03:15
3928
1
原创 Elasticsearch settings管理
概述在工作中,我们常常需要对setting做一些微调,这个时候我们应该如何处理?settings是针对索引库而言修改分片和副本数的。一个索引库的setting如下{ "poc2" : { "settings" : { "index" : { "refresh_interval" : "10s", "number_of_sha...
2019-05-31 11:08:06
3055
原创 Elasticsearch 别名管理
概述记录自己在工作中将ES数据库从5.2.0升级到6.X版本,ES的索引库type发生变化,由于ES6.x版本只有一种type(tyep为doc),造成数据存在两个不同的type中,我们把ES6.x中的数据存在其他索引表中,通过建立索引名称关联5.x和6.x的数据。1、添加别名#添加别名 index :poc2 添加别名为:pocPOST /_aliases?pretty{ ...
2019-05-31 10:44:36
1486
原创 Elasticsearch 索引模板
概述记录自己在工作中将生产的数据按月保存在ES中(通过logstash采集kafka数据到ES),由于生产环境数据量比较庞大(一天的日志量大概在2500万条左右),为了后期减轻服务器压力,方便我们维护,所以需要对我们的日志进行处理,按月建立不同的ES索引库,能够查询最近6个月的日志,关闭前6个月不用的日志。创建模板如果用户每次新建一个索引的时候都需要手动创建mapping非常麻烦,es...
2019-05-31 10:31:53
8030
5
原创 shell脚本一键安装kafka集群
shell脚本一键安装kafka集群#!/bin/bash#在脚本的位置存放安装包kafka_2.11-0.10.2.1.tgzcurrentTime=$(date '+%Y-%m-%d %H:%M:%S')echo -e "请输入kafka的安装目录,不存在脚本自动创建,最后一个/不要写 /bigdata/install"read kafkainstallpath#创建KAFKA安...
2019-05-24 15:53:37
566
原创 shell一键部署zk集群
#!/bin/bash#配置zk的安装目录 修改的地方1 脚本可以自己创建currentTime=$(date '+%Y-%m-%d %H:%M:%S')echo -e "请输入zk的安装目录,不存在脚本自动创建,最后一个/不要写 /bigdata/install"read zkinstallpath#创建zk安装的目录if [ ! -d $zkinstallpath ]; then...
2019-05-24 15:52:55
263
原创 shell脚本一键安装elasticsearch分布式
#!/bin/bash#配置ES的安装目录 修改的地方1 脚本可以自己创建currentTime=$(date '+%Y-%m-%d %H:%M:%S')echo -e "请输入es的安装目录,不存在脚本自动创建,最后一个/不要写 /bigdata/install"read esinstallpath#创建ES安装的目录if [ ! -d $esinstallpath ]; then...
2019-05-24 15:49:51
892
原创 一键安装hadoop完全分布式shell脚本
#!/bin/bash#配置ES的安装目录 修改的地方1 脚本可以自己创建##在windows编写的代码可能运行有问题执行以下 1>vim redisshell.sh 2>:set ff=unixecho -e "请输入hadoop的安装目录,不存在脚本自动创建,最后一个/不要写 /bigdata/install"read esinstallpath#创建ES安装的目录...
2019-05-24 15:30:52
1722
1
原创 shell脚本导出es中的数据
#!/bin/bash string="aa.com bb.com" array=(${string// / }) for var in ${array[@]}do echo $varcurl -XGET "http://192.168.8.23:9200/poc/showlog/_search" -d'{ "query": { "match": { ...
2019-05-24 15:27:53
1583
原创 es模板mapping
自己用的es mapping文件PUT /poc6{ "settings": { "index": { "refresh_interval": "1s", "number_of_shards": 5 , "number_of_replicas": 1, "translog": { "flush_thr...
2019-05-24 15:25:26
865
原创 Elasticsearch-5.2.0数据备份
概述本文介绍的是Elasticsearch-5.2.0基于hdfs在不用的集群上快速恢复数据。环境hadoop集群环境,传送门(https://blog.youkuaiyun.com/bankq/article/details/89379825)一、ES整合HDFS集群1、安装repository-hdfsElasticsearch-5.2.0安装repository-hdfs,快速在...
2019-04-26 11:03:28
552
原创 大数据环境搭建系列-kafka集群搭建
概述记录自己搭建kafka集群,方便以后快速搭建。机器5台(cdh01~cdh05)1、下载版本:kafka_2.11-0.10.2.1.tgz2、解压tar -zxvf kafka_2.11-0.10.2.1.tgz3、创建软连接或者移动位置ln -s kafka_2.11-0.10.2.1 kafka4、环境变量配置vim ~/.bash_profile...
2019-04-18 16:13:28
207
原创 大数据环境搭建系列-hadoop高可用集群搭建
概述记录一下快速搭建一个高可用的hadoop集群,机器5台(cdh01~cdh05)分配cdh01、cdh02为名称节点,cdh01~cdh05为数据节点部署规划主机名 系统 ip 进程 cdh01 Linux 192.168.8.21 NameNode、ZKFC、Resourcemanager、DataNode、NodeManager、J...
2019-04-18 15:53:37
326
原创 远程操作脚本
概述此脚本采用ssh命令,主要用在大数据环境下在一个机器快速操作其他机器,直接上代码ssh命令用于远程登录上Linux主机。常用格式:ssh [-l login_name] [-p port] [user@]hostname1、创建脚本#创建脚本touch xcall.sh #附权限chmod a+x xcall.sh #移动脚本到/usr/local/bin/下面...
2019-04-18 15:16:55
964
原创 文件分发脚本
概述大数据环境有很多台主机,每台的配置文件基本一致,为了快速的给每台机器拷贝一份相同的文件。在这里记录一下一个小脚本,利用rsync辅助1、安装rsyncyum -y install rsync2、创建脚本#附权限touch xsync.sh #附权限chmod a+x xsync.sh#移动到 /usr/local/bin/ 下面 mv xsync.sh /...
2019-04-18 14:56:52
954
原创 大数据环境搭建系列-zookeeper集群搭建
概述本博客基于zookeeper-3.4.9搭建集群环境。非root用户(bigdata),五台机器(cdh01~cdh05)机器主机名 系统 ip cdh01 Linux 192.168.8.21 cdh02 Linux 192.168.8.22 cdh03 Linux 192.168.8.23 cdh04 Li...
2019-04-18 13:41:11
268
原创 大数据环境搭建系列-JDK安装
概述本篇基于普通用户搭建jdk1.8.0_131环境。1、版本jdk1.8.0_1312、主机192.168.8.21 、192.168.8.22、192.168.8.23 、192.168.8.24、 192.168.8.25五台主机。4、解压tar -zxvf jdk-8u131-linux-x64.gz5、创建软连接ln -s /bigdata/so...
2019-04-18 13:07:29
331
原创 elasticsearch-sql 5.2.0插件安装
elasticsearch-sql 5.2.0插件安装概述本博客基于elasticsearch5.2.0版本安装,Elasticsearch 5.x版本中,SQL功能还没有集成到Elasticsearch源码中,需要下载第三方插件后才能使用,配置过程如下:1、安装ES-SQL依赖node npmES-SQL 5.x版本以后,安装需要依赖...
2019-04-10 20:52:07
637
原创 关于浏览器中使用百度定位
1.你想要在浏览器中使用百度地图定位首先需要申请百度AK申请地址:http://lbsyun.baidu.com/index.php?title=jspopular点击打开链接我申请的web端应用的ak:cDKCjbOk1e9b9HnQN2RongX7lfGVlBBX2.其次就是选择使用IP定位还手浏览器定位(我使用的是ip定位) 参考地址:http://lb
2016-11-17 17:38:15
1497
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人