unhurried人生——冕临-优快云博客

原创 Ubuntu安装Elasticsearch

注：本文章的ubuntu的版本为：ubuntu-20.04.6-live-server-amd64。

2025-04-03 22:51:15 1375 1

原创 Ubuntu安装MinIO

注：本文章的ubuntu的版本为：ubuntu-20.04.6-live-server-amd64。

2024-12-30 22:41:47 671

MinIO是一个开源的高性能分布式对象存储服务，专为满足现代云原生应用的存储需求而设计。它完全兼容Amazon S3 API，提供与S3相似的对象存储服务，能够高效地存储和检索各种类型的数据，如图片、视频、文档等。与传统存储解决方案相比，MinIO更加轻量、性能更优，并且能够适应不同类型的云环境（包括公有云、私有云和混合云）。MinIO的设计理念简单而清晰：提供高效、可靠且易于扩展的存储服务。这使其在高吞吐量、大规模数据存储场景中表现出色，特别适用于大数据分析、人工智能数据存储、备份与归档等应用。

2024-12-27 08:48:33 996

原创 JDBC基本使用

JDBC，全程为Java Database Connectivity，即Java数据库连接。允许Java程序与关系型数据库进行交互。通过 JDBC，程序可以连接到数据库并执行SQL语句，实现对数据库的增、删、查、改等操作。JDBC定义了统一的接口规范，而各个数据库厂商根据该规范提供具体的接口实现。这些实现类通常封装在JAR文件中，也就是常说的数据库驱动JAR包。JDBC工作流程JDBC的工作原理基于客户端/服务器模式。

2024-12-18 22:17:51 888

原创 Maven基本使用

Maven是一款为Java项目管理构建、依赖管理的工具，使用Maven可以自动化构建、测试、打包和发布项目，大大提高了开发效率和质量。Maven可以管理项目的依赖，包括自动下载所需依赖库、自动下载依赖需要的依赖并且保证版本没有冲突、依赖版本管理等。通过Maven，开发人员可以方便地维护项目所依赖的外部库，避免版本冲突和转换错误等，而开发人员仅仅需要编写配置即可。Maven可以管理项目的编译、测试、打包、部署等构建过程。通过实现标准的构建生命周期，可以确保每一个构建过程都遵循同样的规则和最佳实践。

2024-08-28 19:29:54 1394 1

原创 Git基本使用

Git是一个免费的、开源的分布式版本控制系统，可以快速高效地处理从小型到大型的各种项目。是现代软件开发中不可或缺的工具之一，它通过其强大的分支管理、快速的操作和高效的协作能力，极大地促进了团队的开发效率和代码管理的便利性。Git易于学习，占地面积小，性能极快。它具有廉价的本地库，方便的暂存域和多个工作流分支等特性。由Linus Torvalds为了管理Linux内核开发而创建。在 Git 中，分支是指向 Git 仓库中特定提交对象（commit）的可变指针。

2024-07-22 19:24:30 1287

原创 Ubuntu安装PostgreSQL

原因是配置PostgreSQL编译选项时，系统找不到zlib是一个用于数据压缩的库，许多软件（包括PostgreSQL）都依赖它进行压缩和解压缩操作，如果PostgreSQL需要提供压缩和解压缩功能，就需要安装zlib库。如果不需要readline支持，或者只是想要快速安装PostgreSQL而不处理readline的依赖问题，可以选择禁用readline支持。如果不需要ICU支持，或者只是想要快速安装PostgreSQL而不处理ICU的依赖问题，可以选择禁用ICU支持。看到activate即启动成功。

2024-07-04 23:32:27 962

原创 PostgreSQL基础知识

PostgreSQL是一个强大的开源对象关系数据库系统，它使用并扩展了SQL语言，并结合了许多功能，可以安全地存储和扩展最复杂的数据工作负载。PostgreSQL的起源可以追溯到1986年，是加州大学伯克利分校POSTGRES项目的一部分，在核心平台上有超过35年的积极开发。PostgreSQL以其经验证的体系结构、可靠性、数据完整性、强大的功能集、可扩展性以及软件背后的开源社区致力于始终如一地提供高性能和创新的解决方案而赢得了良好的声誉。

2024-06-15 12:07:15 1187

原创 Ubuntu安装Neo4j

可能报错：Error: JAVA_HOME is not defined correctly. We cannot execute。把 server.default_listen_address=0.0.0.0 注释放开，重启服务即可。注：本文章下载neo4j-community-5.18.1-unix.tar.gz。报错原因是缺少jdk或者没有配置全局变量JAVA_HOME，安装或配置即可。注：本文章安装neo4j 5.18.1。建议安装java 17。出现以下信息即启动成功。出现以下信息即启动成功。

2024-04-30 22:57:48 2231

原创 Neo4j基础知识

图数据库是基于数学里图论的思想和算法而实现的高效处理复杂关系网络的新型数据库系统。它善于高效处理大量的、复杂的、互连的、多变的数据。其计算效率远远高于传统的关系型数据库。在图形数据库当中，每个节点代表一个对象，节点之间的连线代表对象之间的关系。节点可带标签。节点和关系都可以带若干属性。每个节点可以存储实体的属性，每条边可以描述实体之间的关联。图形数据库以图形结构存储数据，通过节点和边表示实体及其关系，适用于需要高效处理复杂关系数据的场景，如社交网络、实时推荐、征信系统、人工智能等领域。

2024-03-31 17:31:00 1133

原创 Ubuntu安装MongoDB

输出版本信息即正常，可能报错：bin/mongod: error while loading shared libraries: libcurl.so.4: cannot open shared object file: No such file or directory。注：本文章下载mongodb-linux-x86_64-ubuntu2004-7.0.4.tgz。注：本文章下载mongosh-2.1.1-linux-x64.tgz。注：输入密码要在admin数据库上，在test数据库会报错。

2023-12-27 21:48:14 1136

原创 MongoDB基础知识

MongoDB是由C++编写的非关系数据库，是一个基于分布式文件存储的数据库系统，是一个面向集合，模式自由的文档型数据库。MongoDB介于关系数据库和非关系数据库之间，是非关系数据库当中功能最丰富，最像关系数据库的非关系数据库。它支持的数据结构非常松散，是类似json的bson格式，因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能，而且还支持对数据建立索引。

2023-12-17 18:32:58 869

原创 Ubuntu安装Redis

把requirepass注释去掉，写上自己的密码，重启服务即可。把内容中daemonize no改成daemonize yes。把 bind 127.0.0.1 注释掉，重启服务即可。看到 ./bin/redis-server即启动成功。注：本文章下载redis-7.2.3.tar.gz。进入下载链接选择Redis版本下载。看到activate即启动成功。看到activate即启动成功。密码生效则返回nil（空）。设置为系统服务可以开机自启。

2023-12-12 23:10:51 1060

原创 Redis基础知识

Redis基于ANSI C语言编写开发，是一个开源的高性能内存数据存储系统，以键值对的形式存储数据，并支持多种数据结构，如字符串、哈希表、列表、集合和有序集合等。Redis具有低延迟、高吞吐量的特点，适用于对响应时间要求较高的场景。它支持数据持久化，通过快照和日志机制确保数据的安全性。由于其出色的性能和灵活性，Redis成为了众多开发者和企业的首选之一。

2023-12-10 20:17:13 213

原创 Ubuntu安装MySQL

注：本文章下载mysql-server_8.0.35-1ubuntu20.04_amd64.deb-bundle.tar。将bind-address和mysqlx-bind-address注释掉（没有则不管），再重新启动MySQL。如果安装时没有设置密码（尤其是在线安装），则MySQL无法正常使用，故需要将密码重置。再次进入MySQL可以使用设置的密码（‘123456’）进入MySQL。时可能会出现设置密码的界面，正常设置即可。看到activate即启动成功。看到activate即启动成功。

2023-12-05 22:23:51 879

原创 MySQL基础知识

MySQL是一个开源的关系型数据库管理系统，使用标准的SQL数据语言形式。由瑞典MySQL AB公司开发，后被Sun收购，随后Sun又被Oracle收购，因此目前MySQL归Oracle公司所有。MySQL被广泛应用于网站开发和作为中小型企业的数据存储系统。MySQL是一种关联数据库管理系统，将数据保存在不同的表中，而不是将所有数据放在一个大仓库内，这样就增加了速度并提高了灵活性。MySQL被广泛应用于Web应用程序的后台数据存储，包括但不限于电子商务系统、博客平台、论坛、社交网络等。

2023-12-02 22:00:12 176

原创 Ubuntu 安装 SQL Server

则需要安装（无报错跳过）SA 帐户指定强密码。需要最小长度为 8 个字符，包括大写和小写字母、十进制数字和/或非字母数字符号。以下 SQL Server 版本是免费提供许可的：Evaluation、Developer 和 Express 版。建议选择Developer版。和则需要安装（无报错跳过）输入上述命令看到：Active: active (running)则表示服务正在运行，SQL Server服务安装完成。

2023-06-12 17:03:10 3645 1

原创 SQL Server基础知识

SQL Server 是微软的一种关系型数据库管理系统，也是最流行的企业级数据库管理系统之一。它拥有优秀的可靠性、安全性、抗并发能力及性能，被广泛应用于网络、商务、财务、分析及其他工业领域。是一个全面的数据库平台，使用集成的商业智能(BI)工具提供了企业级的数据管理。

2023-06-08 23:07:33 689

原创 HBase基础知识

HBase是一个开源的、分布式的、非关系型的列族数据库。HBase位于Hadoop生态系统的结构化存储层，数据存储于分布式文件系统HDFS中，并且使用ZooKeeper作为协调服务。HDFS为HBase提供了高可靠性的底层存储支持，MapReduce为HBase提供了高性能的计算能力，ZooKeeper则为HBase提供了稳定的服务和失效恢复机制。HBase的设计目的是处理非常庞大的表，甚至可以使用普通计算机处理超过10亿行的、由数百万列组成的表的数据。

2022-09-29 20:45:17 2076 1

原创 Elasticsearch查询

有多个条件同时成立，需要在body里面进行添加一个键名为bool的键值对，代表条件的意思，值是must或者should，filter，must表示同时成立，should表示或者，就是其中一个成立即可，filter表示范围，数值的范围条件，然后可以选择匹配查询，匹配查询的值是数组形式，表示多个条件同时成立，例如。然后在body输入要查询的条件，选择json格式，输入也要是json格式的数据，最外层的键是选择查询，然后是查询的方式，最后是查询的条件，例如。选择数值范围条件需要指定范围，哪个字段还有条件，例如。

2022-09-26 22:59:33 245

原创 Elasticsearch基本使用

以id为修改条件，这样其实就是把原有的数据进行删除，再进行添加，也就是原数据已经完全删除，只剩下修改后的数据。并且在body里面输入要添加的数据，选择json格式，输入也要是json格式的数据，例如。并且在body里面输入修改后的数据，选择json格式，输入也要是json格式的数据。以id进行查询，查询的结果是id为1001的数据，如果id不存在则返回false。这样就把id为1001的数据删除了，数据不存在则返回not_found。在body中增加一个键为doc，值为要修改的数据的一个键值对，例如。

2022-09-25 21:24:09 169

原创岭回归算法

岭回归是一种专用于共线性数据分析的有偏估计回归方法，实质上是一种改良的最小二乘估计法，通过放弃最小二乘法的无偏性，以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法，对病态数据的拟合要强于最小二乘法。其实就是降低精度来提高泛化性，这种方法较适合用于病态数据的拟合。在用高阶多项式拟合数据时，有可能会拟合出系数特别大的表达式，即每个特征对输出的影响都很大。除了在训练集上的表现，我们希望模型在测试集上同样具有较好的拟合效果（泛化性），此时就希望训练的模型的系数尽可能地小（趋向于0）。

2022-09-24 19:57:24 10044

原创搭建Hadoop HA集群

yarn.resourcemanager.store.class：用于Resourcemanager状态存储的类，默认为org.apache.hadoop.yarn.server.resourcemanager.recovery.FileSystemRMStateStore，基于Hadoop文件系统的实现。另外，还可以指定org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore，该类为基于ZooKeeper的实现。

2022-09-23 18:22:42 1495

原创 Hadoop HA 高可用

HA，即高可用（7*24 小时不中断服务）。实现高可用最关键的策略是消除单点故障。HA 严格来说应该分成各个组件的 HA机制：HDFS 的 HA 和 YARN 的 HA。在Hadoop2.0版本之前，HDFS集群中一旦NameNode节点所在的机器发生意外，如宕机，集群将无法使用，直到管理员重启。或者NameNode节点的机器需要升级，包括软件、硬件升级，此时集群也将无法使用。HDFS HA就是为了解决上述问题。

2022-09-22 16:59:08 939

原创搭建ZooKeeper分布式集群

其中，id值必须在整个集群中是唯一的，且大小在1到255之间，host是服务器的名称或者IP地址，第一个端口号（port1）是Leader端口，即该服务器作为Leader是供Follower连接的端口，第二个端口号（port2）是选举端口，即选举Leader服务器时供其他Follower连接的端口。tickTime：Zookeeper使用的基本时间，服务器之间或客户端与服务器之间维持心跳的时间间隔，也就是每个tickTime时间就会发送一个心跳，时间单位为毫秒。集群启动成功，搭建完成。

2022-09-21 19:06:56 366 1

原创 ZooKeeper基础知识

ZooKeeper是一个分布式应用协调服务，主要用于解决分布式集群中应用系统的一致性问题。它能提供类似文件系统的目录节点树方式的数据存储，主要用途是维护何监控所存数据的状态变化，以实现对集群的管理。在分布式环境里，往往会有很多服务器都需要同样的配置来保证信息的一致性和集群的可靠性，而一个分布式集群往往会有上百台服务器，一旦配置信息改变，就需要对每台服务器进行修改，这样会消耗大量时间。

2022-09-20 14:03:44 960

原创 Yarn基础知识

Yarn 是一个资源调度平台，负责为运算程序提供服务器运算资源（内存、CPU），相当于一个分布式的操作系统平台，而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。Yarn其实是一个通用的资源管理系统，所谓资源管理，就是按照一定的策略将资源分配给各个应用程序使用，并且会采取一定的隔离机制防止应用程序之间彼此抢占资源而相互干扰。

2022-09-19 17:41:42 811

原创 MapReduce案例之单词计数

单词计数是MapReduce的入门程序，跟编程语言当中的“Hello world”一样。

2022-09-18 15:57:07 1472

原创 MapReduce程序编写

Hadoop支持多种语言开发MapReduce程序，但是对JAVA语言的支持最好。编写一个MapReduce程序需要新建三个类：Mapper类、Reduce类、驱动类。Mapper类何Reduce类也可以作为内部类放在程序执行主类中。

2022-09-17 18:11:54 2909

原创 MapReduce基础知识

MapReduce是一个分布式运算程序的编程框架，是用户开发“于Hadoop的数据分析应用”的核心框架。使用该框架编写的应用程序能够以一种可靠的、容错的方式并行处理大型集群上的大量数据，也可以对大数据进行加工、挖掘和优化等处理。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个 Hadoop 集群上。

2022-09-16 18:19:41 830

原创 HDFS JAVA API

org.apache.hadoop.fs.FileSystem：一个通用文件系统的抽象基类，可以被分布式文件系统继承。所有可能使用Hadoop文件系统的代码都要使用到这个类。org.apache.hadoop.fs.FileStatus：一个接口，用于向客户端展示系统中文件和目录的元数据，具体包括文件大小、块大小、副本信息、所有者、修改时间等，可通过FileSystem.listStatus()方法获得具体的实例对象。

2022-09-12 21:12:07 1424

原创 HDFS命令行

在Linux终端窗口，可以利用Shell命令对Hadoop进行操作。利用这些命令可以完成HDFS中文件的上传、下载、复制、查看文件信息、格式化名称节点等操作。若没有配置Hadoop的系统PATH变量，则需要进入到Hadoop的安装目录下/bin目录中执行。

2022-09-11 19:38:01 2592

原创 HDFS基础知识

HDFS是Hadoop项目的核心子项目，在大数据开发中通过分布式计算对海量数据进行存储与管理。它基于流数据模型访问和处理超大文件的需求而开发，可以运行在廉价的商用服务器上，为海量数据提供了不怕故障的存储方法，进而为超大数据集的应用处理带来了很多便利。HDFS 的使用场景：适合一次写入，多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。

2022-09-09 19:01:40 1593

原创搭建Hadoop分布式集群

yarn.nodemanager.aux-services：NodeManager上运行的附属服务，需配置成mapreduce_shuffle才可运行Mapreduce程序。yarn.resourcemanager.address：指定ResourceManager所在的节点与访问端口，如果不添加，ResourceManager则默认执行在YARN启动命令的节点上启动。dfs.datanode.data.dir：DataNode节点数据在本地文件系统的存放位置。指定 Mapreduce。

2022-09-06 14:48:36 290

原创 Hadoop基础知识

如果不同框架组成的集群相互独立，随着数据增长，跨集群间的数据移动需要耗费更长的时间，而共享集群方式通过共享集群间的数据和资源，大大节省了数据移动时间并降低了成本。如果不同框架组成的集群相互独立，必然会导致资源的利用不充分，甚至出现资源紧张的情况，而共享集群的方式可以使多个框架共享集群资源，提高了资源利用率。高扩展性：Hadoop的设计目标是可以高效稳定地运行在廉价的计算机集群上，可以扩展到数以千计的计算机节点上。是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，用于实时计算的场景较多。

2022-09-05 20:46:50 1290

原创逻辑回归算法

逻辑回归算法是所有机器学习算法中最简单的算法，主要解决二分类问题，用来表示某件事情发生的可能性，逻辑回归算法将任意输入映射到0-1之间，在线性回归中可以得到一个预测值，然后将该值映射到Sigmoid函数中，这样就完成了由值到概率之间的转换，也就是分类问题。简单来说，逻辑回归算法就是拟合一个函数，来预测某一件事情所发生的概率，一件事情所发生的概率自然是在0-1范围内。...

2022-08-03 22:53:10 422

原创线性回归算法

线性回归算法概述线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，运用十分广泛。线性回归模型是相对简单的回归模型，对一个或多个自变量之间的线性关系进行建模，可用最小二乘法求模型函数。回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。......

2022-07-25 21:59:32 7659

原创 DBSCAN聚类算法

DBSCAN聚类算法概述DBSCAN聚类算法是一个比较有代表性的基于密度的聚类算法。所谓密度，就是说样本的紧密程度对应其类别，属于同一个类别的样本是紧密相连的。DBSCAN聚类算法可以在噪声的空间数据库中发现任意形状的聚类。DBSCAN聚类算法相关概念在数据集中找一个点，以这个点为圆心，画一个指定半径的圆，在这个圆内的其他点就是与这个点密切的点，如果些点的数量达到一定的数量，也就是达到阈值，就可以认为这个点是核心点。如果一个点在核心点的指定半径圆的这个范围内，那么就说这个点和核心点成为直接密

2022-04-13 12:34:42 1919

原创 Elasticsearch基础知识

Elasticsearch介绍Elasticsearch 是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性，能使数据在生产环境变得更有价值。Elasticsearch 的实现原理主要分为以下几个步骤，首先用户将数据提交到Elasticsearch 数据库中，再通过分词控制器去将对应的语句分词，将其权重和分词结果一并存入数据，当用户搜索数据时候，再根据权重将结果排名，打分，再将返回结果呈现给用户。Elas

2022-04-12 11:11:18 1539

原创 Kmeans聚类算法

Kmeans聚类算法概述k均值聚类算法是一种迭代求解的聚类分析算法，其步骤是，预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有（或最小数目）对象被重新分配给不同的聚类，没有（或最小数目）聚类中心再发生变化，误差平方和局部最小。Kmeans聚类算法是一

2022-04-11 21:30:02 1628

可视化监控系统（Java+OSHI+Vue+ECharts）

pytorch手写数字识别样例

空空如也