浪漫の土狗-优快云博客

原创数据治理必要性

在企业数据积累过程中，公司有了海量数据，如果不能够保证数据质量不但不能解决问题，反而会制造更多麻烦，例如：企业数据标准、命名规则不一致、企业数据口径不一致（数据统计结果不一致）、统计结果重要数据缺失等，以上问题都会给企业的经营管理和市场洞察带来极大挑战。只有通过数据治理才能对不同架构、跨不同业务领域平台提供一致的、可用的、安全的数据对象，真正挖掘出数据的价值，从而支撑经营管理，推动业务创新，为企业提供商业竞争能力。那么什么是数据治理？

2024-04-25 17:14:44 300

原创 Presto集群搭建

注意：--server执行连接Presto的coordinator节点，--catalog指定连接hive，这里写的名字和“/opt/presto-0.280/etc/catalog”路径中配置的properties名称保持一致。分别在zzy01,zzy02,zzy03节点上启动Presto Server，启动可以采用前台方式，日志会打印到控制台，也可以采用后台方式启动Presto，日志存放在“/opt/presto-0.280/data/var/log”路径下。

2024-03-28 16:04:37 906

原创 Hadoop HA搭建

环境准备：关闭防火墙，ssh 免密登录配置， JDK 1.8 环境配置，ZK集群配置，时间同步三台虚拟机，版本最好为centos7.9。

2024-03-27 10:59:27 727

原创 Elasticsearch文档分析

虽然 ES 带有一些现成的分析器，然而在分析器上 ES 真正的强大之处在于，你可以通过在一个适合你的特定数据的设置之中组合字符过滤器、分词器、词汇单元过滤器来创建自定义的分析器。在分析与分析器我们说过，一个分析器就是在一个包里面组合了三种函数的一个包装器，三种函数按照顺序被执行:字符过滤器字符过滤器用来整理一个尚未被分词的字符串。例如，如果我们的文本是 HTML 格式的，它会包含像 <p> 或者 <div> 这样的 HTML 标签，这些标签是我们不想索引的。

2024-03-25 16:58:54 778

原创 Elasticsearch文档处理

一个常见的设置是使用其它数据库作为主要的数据存储，使用 ES 做数据检索，这意味着主数据库的所有更改发生时都需要被复制到 ES ，如果多个进程负责这一数据同步，你可能遇到类似于之前描述的并发问题。如果你的主数据库已经有了版本号 — 或一个能作为版本号的字段值比如 timestamp —那么你就可以在 ES 中通过增加 version_type=external 到查询字符串的方式重用这些相同的版本号，版本号必须是大于零的整数，且小于 9.2E+18 — 一个 Java 中 long 类型的正值。

2024-03-25 16:38:20 719

原创 Elasticsearch分片原理

分片是 ES 最小的工作单元。传统的数据库每个字段存储单个值，但这对全文检索并不够。文本字段中的每个单词需要被搜索，对数据库意味着需要单个字段有索引多值的能力。最好的支持是一个字段多个值需求的数据结构是倒排索引。

2024-03-25 16:34:33 789

原创 Elasticsearch进阶

4.2系统架构一个运行中的 ES 实例称为一个节点，而集群是由一个或者多个拥有相同cluster.name 配置的节点组成，它们共同承担数据和负载的压力。当有节点加入集群中或者从集群中移除节点时，集群将会重新平均分布所有的数据。当一个节点被选举成为主节点时，它将负责管理集群范围内的所有变更，例如增加、删除索引，或者增加、删除节点等。而主节点并不需要涉及到文档级别的变更和搜索等操作，所以当集群只拥有一个主节点的情况下，即使流量的增加它也不会成为瓶颈。任何节点都可以成为主节点。我们的示例集群就只有

2024-03-25 16:33:23 845

原创 Elasticsearch核心概念

一旦复制了，每个索引就有了主分片（作为复制源的原来的分片）和复制分片（主分片的拷贝）之别。分片和复制的数量可以在索引创建的时候指定。默认情况下，ES 中的每个索引被分片 1 个主分片和 1 个复制，这意味着，如果你的集群中至少有两个节点，你的索引将会有 1 个主分片和另外 1 个复制分片（1 个完全拷贝），这样的话每个索引总共就有 2 个分片，我们需要根据索引需要确定分片个数。当 ES 在索引中搜索的时候，他发送查询到每一个属于索引的分片(Lucene 索引)，然后合并每个分片的结果到一个全局的结果集。

2024-03-25 16:30:59 489

原创 Elasticsearch环境

一个节点也是由一个名字来标识的，默认情况下，这个名字是一个随机的漫威漫画角色的名字，这个名字会在启动的时候赋予节点。默认情况下，每个节点都会被安排加入到一个叫做“elasticsearch”的集群中，这意味着，如果你在你的网络中启动了若干个节点，并假定它们能够相互发现彼此，它们将会自动地形成并加入到一个叫做“elasticsearch”的集群中。单台 ES 服务器提供服务，往往都有最大的负载能力，超过这个阈值，服务器性能就会大大降低甚至不可用，所以生产环境中，一般都是运行在指定服务器集群中。

2024-03-21 16:58:55 947

原创 Hadoop集成LZO

hadoop压缩有一个默认的压缩格式，当然可以通过修改。

2024-03-21 13:43:40 490

原创 Hive高可用搭建

为提升hive可用性，提升集群稳定性。对已搭建好的hive进行高可用改造。没有搭建好hive的，请先移步搭建好hive，并且beeline测试连通，再参考本文。

2024-03-21 09:55:11 616

原创 Elasticsearch入门

简单的理解就是，如果想要访问互联网上的资源，就必须向资源所在的服务器发出请求，请求体中必须包含资源的网络路径，以及对资源进行的操作(增删改查)。为了找到相似的术语，fuzzy 查询会在指定的编辑距离内创建一组搜索词的所有可能的变体或扩展。Elasticsearch 是使用 java 开发的，且 7.8 版本的 ES 需要 JDK 版本 1.8 以上，默认安装包带有 jdk 环境，如果系统配置 JAVA_HOME，那么使用系统默认的 JDK，如果没有配置使用自带的 JDK，一般建议使用系统配置的 JDK。

2024-03-18 16:14:59 1059

原创 Elasticsearch概述

Google，百度类的网站搜索，它们都是根据网页中的关键字生成索引，我们在搜索的时候输入关键字，它们会将该关键字即索引匹配到的所有网页返回；为了解决结构化数据搜索和非结构化数据搜索性能问题，我们就需要专业，健壮，强大的全文搜索引擎这里说到的全文搜索引擎指的是目前广泛应用的主流搜索引擎。它的工作原理是计算机索引程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。总结他们的每个属性。

2024-03-18 16:11:37 726

原创 ClickHouse扩展

对Table发起的一次操作通常都会经历这样的过程，接收AST查询语句，根据AST返回指定列的数据，之后再将数据交由Interpreter做进一步处理。关于数据压缩：CH的数据存储文件 column.bin中存储的是一列数据，由于一列是相同的数据类型，所以方便高效压缩，在进行压缩的时候，请注意：一个压缩数据块由头信息和压缩数据两部分组成，头信息固定使用9位字节表示，具体由1个UInt8（1字节）整型和2个UInt32(4字节)整型组成，分别代表使用的压缩算法类型、压缩后的数据大小和压缩前的数据大小。

2024-03-15 13:51:13 959

原创 ClickHouse运维管理

...

2024-03-15 08:48:36 912

原创时序数据库概念

但如果查询地连续聚合涉及还未被刷新的新数据，则在查询时将 AN 上的预聚合数据与来自 DN 中尚未物化的数据进行组合，这种方式中大多数结果已经在 AN 上预先计算，并且仅在查询时从指定 DN 获取尚未物化的最新数据，比直接查询原始数据要有效得多。这些策略在后台执行时是相互影响的，例如，在使用连续聚合时，有些情况下需要保留历史数据的统计数据，但不需要保留原始数据，这时候就可以通过将数据保留与连续聚合相结合来减少旧数据的采样。如果要防止这种情况，需要确保连续聚合的刷新窗口不与任何已删除的数据重叠。

2024-03-14 16:09:04 770

原创 ClickHouse优化

ClickHouse 20.8.2.3 版本新增加了 MaterializeMySQL 的 database 引擎，该引擎能映射到MySQL中的某个database，并自动在ClickHouse中创建对应的ReplacingMergeTree。ClickHouse服务做为MySQL副本，读取Binlog并执行DDL和DML请求，实现了基于 MySQL Binlog 机制的业务数据库实时同步功能。

2024-03-14 10:52:46 493

原创 ClickHouse分布式

副本表的好处：增加了数据的可靠性，减少了单节点故障导致数据丢失的问题；副本表数据的同步是通过ZooKeeper进行协调的，不需要进行数据的传输；并且在各个副本表的各个实例上都可以执行SQL，提高了单点写入的性能问题，也分摊了查询，读写分离。副本表的不足：需要在多个副本实例上建表，运维不方便；也无法解决单节点达到瓶颈的问题。

2024-03-14 09:10:01 782

原创 ClickHouse函数

CH主要提供两类函数—普通函数和聚合函数。普通函数由IFunction接口定义，是没有状态的，函数效果作用于每行数据之上。当然，在函数具体执行的过程中，并不会一行一行地运算，而是采用向量化的方式直接作用于一整列数据。聚合函数由IAggregateFunction接口定义，聚合函数是有状态的。以COUNT聚合函数为例，其AggregateFunctionCount的状态使用整型UInt64记录。聚合函数的状态支持序列化与反序列化，所以能够在分布式节点之间进行传输，以实现增量计算。

2024-03-13 14:49:49 837

原创 ClickHouse数据查询

SELECT *可以定义子查询 ,但是一定还要注意的是,子查询只能返回一行结果 ,否则会抛出异常WITH (SELECT *) AS subSELECT*,sub。

2024-03-13 14:15:12 1686

原创 SpringBoot 事务

本地事务（区别于分布式事务）也叫数据库事务，Spring中的事务是在底层数据库事务的基础上进一步封装，可以在不同的项目、不同的操作中对事务的传播行为和隔离级别做细粒度的控制。

2024-03-13 10:05:36 1168

原创 ClickHouse引擎详解

共同属性数据存储在磁盘上写入时将数据追加在文件末尾不支持突变(Mutation)操作不支持索引（这意味着。

2024-03-12 17:26:21 2086

原创 ClickHouse基础

IPv6类型是基于FixedString(16)封装的，它的使用方法与IPv4别无二致, 在使用Domain类型的时候还有一点需要注意，虽然它从表象上看起来与String一样，但Domain类型并不是字符串，所以它不支持隐式的自动类型转换。-- 行和行之间的属性的个数可以不一致 ,但是当前行的Nested类型中的数组个数必须一致 insert into test_nested values(2,'spark',[1,2],['p1','p2'],['v1','v2']);而数据分片是数据的一种横向切分。

2024-03-08 17:13:54 575

原创 Clickhouse系统架构

CH很多方面不像其他系统那样高度自动化，反过来灵活性极大。与Hadoop生态的其他数据库相比，CH使用了多主对等网络结构，同时它也是基于关系模型的ROLAP方案。

2024-03-08 17:12:56 484

原创 ClickHouse概述

Hadoop生态下的每种组件都自成一体、相互独立，这种强强组合的技术组件有些时候显得过于笨重了。同时Hadoop在海量数据和高时效性的双重压力下，也显得有些力不从心了。然而clickhouse惊人的性能和出色的SQL语法,必然成为数据分析,BI,大数据领域炙手可热的技术!

2024-03-08 17:12:02 506

原创 Exception in thread “main“ java.lang.NoClassDefFoundError

【代码】Exception in thread “main“ java.lang.NoClassDefFoundError。

2024-03-08 09:31:00 587

原创 Presto详解

Presto是由Facebook2012年开发，基于内存、支持并行计算的分布式SQL交互式查询引擎，不是数据库，支持多种数据源，针对GB~PB数据查询可以达到秒级返回结果，主要用于秒级查询OLAP数据分析场景。目前该项目在Facebook中运行超过30000个查询，每日处理数据PB以上。Presto的查询速度是Hive的10倍以上。一、Presto 自定义函数我们可以登录Presto客户端，使用命令：show functions 来查询对应的内置函数。

2024-03-07 15:31:22 1904

原创 GET，POST，PUT对比

PUT和POS都有更改指定URI的语义.但PUT被定义为idempotent的方法，POST则不是.idempotent的方法:如果一个方法重复执行多次，产生的效果是一样的，那就是idempotent的。get请求有大小限制，当然这不是http协议对它有限制，而是不同的服务器和浏览器会对它有不同的限制，以防止请求头过大导致数据传输速度慢；而post请求没有大小限制。PUT请求：如果两个请求相同，后一个请求会把第一个请求覆盖掉。get请求和post请求都是http请求中的一种，都是用来获取信息、传输信息的。

2024-02-05 09:46:50 555

原创 Springboot整合jsp

现如今，各种优秀的前端框架相继出现，如Vue，Thymeleaf，但是在一些小型的工程中，前后端混合开发的情况依然存在。此时jsp或许是java程序员开发项目不错的选择。

2024-01-29 13:36:31 225

原创 springboot集成Servlet

但是这个时候，Springboot并不知道你加了Servlet，所以需要在Main方法上加上@ServletComponentScan注解，表示Servlet组件扫描，可以加上参数basePackages来说明需要扫描的包是哪个。首先编写一个Servlet类继承HttpServlet，方式和正常写Servlet一样。第二种方式，springboot提供的方式。这样就完成了Servlet的配置。

2024-01-26 09:29:55 248

原创 SpringBoot两种打包方式，部署，发布

自定义路径之后，就不需要加包名了，修改 tomcat->conf->server.xml配上之后重启tomcat，就不用war包名，就可以直接访问后端接口了。

2024-01-25 16:48:39 1473

原创 Node.js （四）-- 分别连接MongoDB与MySQL数据库，实现增删查改功能

取消</button><button id="btn1" class="btn" @click="save">提交</button><button id="btn1" @click="save" class="btn">提交</button><button id="delete" @click="del(b.id)">删除

2024-01-24 09:43:48 890

原创 Node.js（三）-- 开发web后台服务

label>编号：</label> <input type="text" name="id" value="<%=bookData.id%>" disabled="" />",bookData:{id:"",name:"",author:"",price:""}});

2024-01-24 09:43:36 1458

原创 Node.js（二）-- 模块化

首先创建一个 default.json 文件，代码如下："age":"18"先依赖模块config，命令如下：咱们将在咱们的应用程序中通过导入config和应用get办法拜访变量来访问它，代码如下：。

2024-01-24 09:40:39 937

原创 Node.js（一）

node.js 一种 JavaScript 的运行环境，能够使得javascript能够脱离浏览器运行。以前 js 只能在浏览器基础上运行，能够操作的也局限于浏览器，比如浏览器上的放大缩小操作，前提是浏览器开启的基础上进行操作（浏览器是客户端）。有了 node.js 之后，js 可以在服务端进行操作，直接在系统上进行操作，可以打开、关闭浏览器等操作。简单的说 Node.js 就是运行在服务端的 JavaScript。Node.js 是一个基于Chrome JavaScript 运行时建立的一个平台。

2024-01-24 09:38:32 963

空空如也

空空如也