圣·杰克船长-优快云博客

原创点击run之后你的java文件经历了什么？

java源文件编写完成之后，点击run方法开始执行到最终执行结束经历了什么呢？我们来仔细看看：第一：编译java源文件经过jvm编译器编译形成.class字节码文件，字节码文件包含了两个部分的内容，第一部分是常量池，记录了所有的常量，成员变量，符号引用等信息；第二部分是类中各个方法对应的字节码文件；我们将字节码文件进行反编译查看，具体如下图所示：第二：运行阶段运行是一个比较...

2019-03-01 14:42:10 499

principal: 代表用户或服务主体，例如 User:Alice。host: 允许或拒绝访问的主机地址，* 表示任意主机。operation: 允许或拒绝的操作类型，例如 READ, WRITE, ALL。permissionType: 权限类型，可以是 ALLOW 或 DENY。resourceType: 资源类型，例如 TOPIC 或 GROUP。name: 资源名称，例如 example-topic。patternType: 资源模式类型，LITERAL 表示字面模式。

2024-06-21 18:20:42 812 1

原创 kafka安装部署之资源评估

假设网络环境带宽为1GB/s，用户的业务目标是每天用1小时处理1TB的业务消息，在这种情况下kafka到底需要多少台机器？

2024-06-21 15:08:03 563

原创 kafka基础概念

为了保证高可靠性，kafka采用了副本备份存储消息机制，副本存在的唯一目的就是放置数据丢失。副本面向的对象是partition，而不是面向具体的消息。在kafka中，replication分为两类：leader replication和follower replication。根据follower与leader副本的消息同步状态可以将副本分为：ISR与OSR【AR】：所有副本【ISR】：副本同步队列【OSR]：副本掉队队列3.5.3.2、ISR简介。

2024-06-20 16:48:43 361

原创 maxwell源码编译安装部署

maxwell的源码编译安装部署及版本不匹配问题解决方案

2024-06-20 10:00:50 1066

原创 hdfs文件系统增删查原理

第一个DataNode在接收到完整的数据块后，将数据传输给第二个DataNode，第二个 DataNode再传输给第三个DataNode，依此类推，形成一个数据流管道。每个DataNode在接收到数据块后，会进行数据校验（使用CRC校验），DataNode向客户端返回确认信息，确认数据块已经成功写入。DataNode接收到来自NameNode的删除指令后，会从本地存储中删除相应的数据块文件，并释放相关的存储空间。

2024-06-19 17:34:47 860

原创 hdfs源码解析之DFSClient

该构造函数已废弃，接受一个Configuration对象，并调用另一个构造函数获取NameNode地址该构造函数接受一个InetSocketAddress对象和一个Configuration对象，并将InetSocketAddress 转换为URI然后调用另一个基于URI的构造函数该构造函数接受一个URI对象和一个Configuration对象，并将FileSystem.Statistics参数设置为 null，然后调用另一个更完整的构造函数。

2024-06-19 11:08:22 748

原创 hdfs高可用文件系统架构

NameNode 是 HDFS 集群中的核心组件，负责管理文件系统的元数据、处理客户端请求、管理数据块、确保数据完整性和高可用性。由于其重要性，NameNode 的性能和可靠性直接影响整个 HDFS 集群的性能和可靠性。在生产环境中，通常会采取多种措施来保障 NameNode 的高可用性和稳定性。具体功能如下：1）NameNode 主要负责管理 HDFS 的元数据（metadata），包括文件系统的目录结构、文件名、文件大小、权限等。

2024-06-18 17:35:41 1165

原创 hive拉链表详解

拉链表（Slowly Changing Dimension, SCD Type 2）是一种用于管理和存储数据仓库中历史数据变化的方法。在数据仓库设计中，数据可能会随时间变化，而我们需要保留这些变化的历史记录，以便能够追溯到任意时刻的数据状态。拉链表通过在数据表中添加时间戳或有效期列来实现这一目的。

2024-06-18 14:24:06 925

原创 hadoop疑难问题解决_Failed to locate the winutils binary in the hadoop binary path java.io.IOException

根据错误提示信息我们可以得知：在hadoop的binary包中没有定位到winutils binary，所以在加载winutils文件过程中出现IO异常。这是因为在集成spark的时候winutilf以及hdfs.dll两个包不兼容导致的，所以我们只需要更换这两个包，保证其兼容性即可；

2024-06-06 16:14:29 639

原创 hadoop疑难问题解决_NoClassDefFoundError: org/apache/hadoop/fs/adl/AdlFileSystem

impala执行查询：select * from stmta_raw limit 10;

2024-06-06 16:02:52 477

原创 HDFS文件块损坏处理方案

flume采集文本文件存储到hdfs中hive的ods层目录，并在hive中通过msck repair table刷新元数据，加载文本文件。

2024-06-06 14:04:33 1354

原创 HDFS租约机制详解

【代码】HDFS租约机制详解。

2024-06-06 13:54:05 176

原创 hadoop命令大全

hdfs dfs -getmerge hdfs://Master:9000/data/SogouResult.txt CombinedResult 把hdfs里面的多个文件合并成一个文件，合并后文件位于本地系统。hdfs job -events 打印给定范围内jobtracker接收到的事件细节。hdfs dfs -copyToLocal /hdfs/a.txt /local/a.txt 从hdfs拷贝到本地。

2024-06-03 15:10:33 409 1

原创从建表语句带你学习doris_表索引

索引是所有数据库系统提高查询性能的一个重要手段，简单的说其作用相当于我们查询汉语词典的目录，通过部首或者拼音快速帮助我们定位到某个汉字。索引通过一定的组织格式能够快速定位到数据表中的数据。内建的智能索引，包括前缀索引和 ZoneMap 索引。用户手动创建的二级索引，包括倒排索引bloomfilter索引和ngram bloomfilter索引。不同于传统的数据库设计，Doris 不支持在任意列上创建索引。Doris 这类 MPP 架构的 OLAP 数据库，通常都是通过提高并发，来处理大量数据的。

2024-04-15 10:38:54 1705 1

原创从建表语句带你学习doris_数据类型

本篇博客我们来学习数据列定义部分，数据列定义部分包括列字段、列类型、列属性、列描述，在这里我们着重讲解列类型以及列属性。

2024-04-09 18:47:21 1261

原创 Failed to locate the winutils binary in the hadoop binary path java.io.IOException解决方法

问题描述：ERROR Shell: Failed to locate the winutils binary in the hadoop binary pathjava.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. at org.apache.hadoop...

2018-12-14 15:32:03 3462

原创 ArrayList源码分析

ArrayList是一个动态数组，能够自动增长容量，线程不安全，适用于单线程，在多线程的情况下，推荐使用Collection.synchronizedList（List list）返回一个ArrayList进行使用,或者是直接使用concurrent并发包里面的CopyOnWriteArrayList：ArrayList实现了四个接口： List： Clon...

2018-08-16 16:18:31 237

原创 Transient关键字详解

Transient关键字描述Transient关键字用于序列化操作中对不需要序列化字段的修饰，在序列化操作中，static和transient修饰的关键字不能够被序列化，因为static关键字修饰的成员变量为静态变量，静态内容属于类，不属于对象；Transient关键字实现案例：首先创建一个实现serializable接口的Person类：class Person impleme...

2018-08-16 11:28:31 618

原创 java序列化详解

什么是序列化？序列化就是一种用来处理对象流的机制，所谓对象流也就是将对象的内容进行流化。可以对流化后的对象进行读写操作，也可将流化后的对象传输于网络之间。为什么需要序列化？解决针对对象进行流操作的时候引发的问题？怎么实现序列化？序列化的实现非常容易，只需要实现serializable接口；序列化实现的原理在于将对象采用流进行读写，核...

2018-08-16 11:19:46 177

原创 scala数据类型详解

基本数据类型：----Byte（整形2个字节）----Short（整形4个字节）----Int（整形8个字节）----Long（整形16个字节）----Char（字符型）----Float（浮点型单精度）----Double（浮点型双精度）----Boolean（布尔类型）复杂数据类型：----List （基于链表实现）----Array（基于数组实现）----Vector（基于双向链表）----...

2018-06-22 15:01:53 2833

原创链表详解

链表概念：链表其实是一段有先后连接顺序的元素连接形成的数据结构；链表组成：当前元素的指针，当前元素数值，当前元素的下一指针指向；对于java而言，没有引入C的指针，那么对应java就变成了当前元素的内存地址，当前元素的值，下一元素的内存地址链表Node对象：private static class Node<E> { 2 E item; 3 ...

2018-06-22 14:54:14 905

原创数组详解

数组的定义：数组是用来存储相同数据类型的有序数据结构；数组的创建：第一种形式：数据类型[] 名称第二种形式：数据类型名称[]数组的初始化：第一种形式：声明创建，并分配存储空间赋值 int[] a = {1,2,3,4,5}; 第二种形式：显式初始化 int[] a = new int...

2018-06-21 19:07:13 343

原创 centos7网卡配置文件详解与固定服务器ip

网卡名称查看：linux命令行输入：ifconfigens33即为当前服务器使用的网卡网卡配置文件位置：/etc/sysconfig/network-scripts/ifcfg-ens33网卡配置文件参数：DEVICE:网卡名称HWADDR:物理mac地址TYPE：网络类型UUID：网卡唯一标识ONBOOT：开机或者重启是否重启网卡NM_CONTROLLED：是否受network程序管理BOOTP...

2018-06-12 23:39:42 21073

原创 idea使用tomcat创建部署maven web项目详细教程

第一步：点击new-->project第二步：选择maven的webapp项目架构，注意是maven的webapp而不是conn的webapp第三步：创建项目，指定项目的groupid以及名称第四步：指定maven的conf配置文件和本地配置仓库的位置，仓库位置不需要改动，只要指定配置文件，仓库位置会自动找到第五步：点击finish结束创建第六步：配置tomcat，点击左上角菜单栏倒三角，进...

2018-06-11 16:47:16 5834 2

原创 ssh-keygen免密登录详解

多个服务器之间相互访问的时候为了简洁和软件需要，我们需要配置免密登录，如下操作：首先我们要知道免密登录的原理：免密登录分为公钥和私钥，公钥发送给其他机器，其他机器持有公钥则可以访问对应机器；所以我们需要把当前机器的公钥发送给其他机器，从而让其他机器可以访问本机；具体操作步骤如下：第一步：生成公钥和私钥（输入命令之后不断enter确定） ssh-keygen 生成文件存放...

2018-06-08 17:26:13 4232 1

原创 Centos7最小化安装部署踩坑

centos7与以前版本的centos系统相比有一定的区别，在这里，我总结了相关的操作问题，希望可以帮的到大家：centos7下载地址：https://www.centos.org/download/ 版本选择：DVD标准版虚拟机安装教程：新建虚拟机教程：http://www.xitongcheng.com/jiaocheng/xtazjc_article_15267.htm...

2018-06-08 16:30:05 1118

原创 kafka架构之zookeeper元数据管理

kafka是如何通过zookeeper进行元数据的管理的呢？首先我们来看一下安装好一个kafka集群之后，对应zookeeper会出现哪些目录？概括为一A一B四个C，如下图：首先在zookeeper的根目录下面会出现以下目录：admin ----/admin/delete_topics：存放被删除的topicbrokers ----ids：当前存活的节点 ----topics：当...

2018-05-30 14:27:31 4099

转载 Hbase客户端代码连接详解

很多人在使用客户端api进行hbase连接的时候，会提出hbase是否有连接池，怎么实现hbase的连接池的问题，更有甚者，许多初学者在开发hbase代码的时候，经常出现hbase连接数的限制等连接问题，归根结底还是对hbase的连接对象Connection不甚了解，下面我们来详细剖析一下hbase的连接对象：常见的使用Connection的错误方法有：（1）自己实现一个Connection对象的...

2018-05-07 14:38:08 16235

原创 JAVA关键字详解

JAVA所有关键字详解：第一类：访问控制：用来对类，方法，成员变量等的访问权限进行限制 --public 所有包的所有类都可以访问 --protected 同一个包的类，本包子类，其他包子类可以访问 --private 本包其他类以及其他包均不可访问第二类：类别声明：用来标识或者声明对象的类型 --abstract 标识所修饰的类或者方法为抽象类型 --class 定义类 ...

2018-04-20 12:04:40 171

原创 impala安装教程--全网最详细可靠

第一步：下载相关rpm包下载地址：http://archive.cloudera.com/cdh5/redhat/6/x86_64/cdh/5.14.0/RPMS/x86_64/ 需要下载jar包如下： impala-2.11.0+cdh5.14.0+0-1.cdh5.14.0.p0.50.el6.x86_64.rpm impala-catalog-2.11.0+cdh5.14.0...

2018-04-08 22:00:02 17972 7

原创 impala-shell启动之后执行操作语句报错

问题一：成功启动impala之后：执行show databases,报以下错误：Query: show databasesERROR: AnalysisException: This Impala daemon is not ready to accept user requests. Status: Waiting for catalog update from the StateStore.问...

2018-04-07 20:06:30 5946 1

原创 Storm-kafka集成——1.1.0版本storm中tuple取KafkaSpout数据详解

问题描述：KafkaSpout拉取kafka topic数据，下一级bolt从kafkaspout获取数据，tuple到底采用什么方法取出spout中的消息呢？KafkaSpout创建：/**根据数据源topic和zk_id创建并返回kafkaSpout* */public static KafkaSpout init(String spout_topic,String zk_id){ ...

2018-04-02 23:07:08 5404 2

原创 plsql连接服务器oracle配置方法

plsql作为一个连接oracle服务端的工具，其使用步骤是非常简单的，下面是具体的操作步骤：第一步：下载安装plsql，具体的安装步骤网络教程很多，大家可以自行百度；第二步：下载oracle客户端，这里最好使用32位的客户端，我在使用64位客户端的时候，会报错：提示确认使用32位客户端，将64位客户端换成32位客户端问题即可解决；第三步：创建一个文件夹oracleClient第四步：解压o...

2018-04-02 15:24:44 2130

原创 centos系统复制虚拟机丢失eth0问题

最近在使用虚拟机搭建集群的过程中，经常遇到扩展节点的问题，通常直接复制或者是克隆虚拟机，信心满满的输入ifconfig之后：发现没有eth0:，没有本机ip；what's the fuck?OK,接下来就来解决这个问题吧！出现这个问题的原因是：复制虚拟机之后，硬件地址出现了问题，只要保证虚拟机的配置vmx和网卡以及70-persistent-net.rules三者一致就可以解决了，下面是解决步...

2018-04-02 15:22:48 410

原创 kudu-impala安装教程

安装apache的impala-kudu:话不多说，直入主题：安装环境说明： linux + Centos6.5系统主节点：mrj001 192.168.137.6 从节点：mrj002 192.168.137.7 从节点：mrj003 192.168.137.8第一步：下载安装包http://archive.cloudera.com/beta/impala-kudu/...

2018-04-02 15:20:09 2553 3

原创 linux环境安装mysql

#将rpm包上传到/root/work目录(也可以是其他目录)MySQL-server-5.6.29-1.linux_glibc2.5.x86_64.rpmMySQL-client-5.6.29-1.linux_glibc2.5.x86_64.rpm#查看之前是否安装过mysqlrpm -qa | grep -i mysql#如果安装过，执行这行代码，删除之前安装过的mysqlrpm -ev --...

2018-04-02 15:10:36 267

原创 clouder manager卸载

cloudera manager卸载一、卸载Cloudera Manager Server 和Agents 注意：卸载Cloudera Manager后，根据需要保留或者删除集群中的Hadoop数据。下面的命令没有删除Hadoop数据，可以在控制台的Hadoop 和MapReduce /配置/选项卡，查看Hadoop数据目录的位置，查找数据目录的属性设置。如果要卸载CDH，清除CD...

2018-04-02 15:09:59 768

原创 clouder manager环境搭建

摘要: 看了网上众说纷纭的ccloudera manager安装文档，感觉就是太过繁琐，我结合自己安装的经验跟大家分享一个简单实用的安装教程运行环境软硬件环境主机操作系统：Windows 64 bit，双核4线程，主频2.2G，8G内存虚拟软件：VMware®Workstation 9.0.0 build-812388 虚拟机操作系统：CentOs6.5 64bit，单核，2...

2018-04-02 15:08:47 5099

原创 ntp同步服务器搭建

第一步：首先检查是否有安装ntp：如果没有安装则使用以下命令安装： yum -y install ntp第二步：设置随机启动： service ntpd start chkconfig ntpd on第三步：同步主节点的服务器时间，这里选用us.pool.ntp.org作为对时中心,ntpdate us.po...

2018-04-02 15:04:59 715

winutils2.6~3.0版本合集

空空如也