- 博客(32)
- 收藏
- 关注
原创 【Hive】Hive安装
第二章 Hive安装第三章 DDL(Data Definition Language)数据定义第四章 DML(Data Manipulation Language)数据操作第五章 Hive查询第六章 Hive的基础知识第七章 Hive函数第八章 分区表和分桶表第九章 文件格式和压缩第十章 企业级调优附录:常见错误及解决方案。
2025-03-11 22:22:27
928
原创 【hive】hive 插入数据,insert后报错 FAILED: Execution Error, return code 2
hive 插入数据的时候,不能直接运行,报错。
2025-03-10 14:02:21
183
原创 【Hadoop】Hadoop的MapReduce
1)什么是序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。2)为什么要序列化一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对象,可以将“活的”对象发送到远程计算机。3)为什么不用Java的序列化。
2025-03-06 13:58:21
676
原创 【Hadoop】Hadoop的HDFS
随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入,多次读出的场景。
2025-02-04 23:14:29
1390
原创 【腾讯云】腾讯云docker搭建单机hadoop
将下载的内容解压到一个统一的文件夹中,需要COPY到镜像的文件都放入一个文件夹中,可以减少镜像层数。如果出现连接9866端口报错,只需本地配置/etc/hosts即可。
2025-01-30 00:29:34
953
原创 【Hadoop】Hadoop 概述
Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。
2025-01-29 22:34:23
1595
原创 【Elasticsearch】Elasticsearch的查询
aggs代表聚合,与query同级,此时query的作用是?限定聚合的的文档范围聚合必须的三要素:聚合名称聚合类型聚合字段聚合可配置属性有:size:指定聚合结果数量order:指定聚合结果排序方式field:指定聚合字段。
2025-01-28 23:48:02
1938
2
原创 【Elasticsearch】RestClient操作文档
响应结果是一个JSON,其中文档放在一个_source属性中,因此解析就是拿到_source,反序列化为Java对象即可。BulkRequest本身其实并没有请求参数,其本质就是将多个普通的CRUD请求组合在一起发送。将数据库中的信息导入elasticsearch中。这里不再赘述,我们主要关注局部修改的API即可。定义一个索引库结构对应的实体。我们以根据id查询文档为例。
2025-01-22 22:21:47
837
原创 【Elasticsearch】Springboot编写Elasticsearch的RestAPI
JavaRestClient操作elasticsearch的流程基本类似。核心是client.indices()方法来获取索引库的操作对象。初始化RestHighLevelClient创建XxxIndexRequest。XXX是Create、Get、Delete准备请求参数( Create时需要,其它是无参,可以省略)发送请求。调用RestHighLevelClient#indices().xxx()方法,xxx是create、exists、delete。
2025-01-22 00:05:32
1095
1
原创 【Elasticsearch】Elasticsearch文档操作
文档操作有哪些?POST/{索引库名}/_doc/文档id{json文档}GET/{索引库名}/_doc/文档idDELETE/{索引库名}/_doc/文档id修改文档:PUT/{索引库名}/_doc/文档id{json文档}POST/{索引库名}/_update/文档id{"doc":{字段}}
2025-01-20 16:08:45
868
原创 【elasticsearch】elasticsearch索引库操作
索引库操作有哪些?创建索引库:PUT /索引库名查询索引库:GET /索引库名删除索引库:DELETE /索引库名修改索引库,添加字段:PUT /索引库名/_mapping可以看到,对索引库的操作基本遵循的Restful的风格,因此API接口非常统一,方便记忆。
2025-01-19 23:58:49
898
原创 【elasticsearch】elasticsearch基本知识
每一条数据就是一个文档对文档中的内容分词,得到的词语就是词条基于文档id创建索引。根据id查询快,但是查询词条时必须先找到文档,而后判断是否包含词条对文档内容分词,对词条创建索引,并记录词条所在文档的id。查询时先根据词条查询到文档id,而后根据文档id查询文档。
2025-01-19 20:25:12
780
原创 【Elasticsearch】腾讯云安装Elasticsearch
然后是Kibana,Elasticsearch对外提供的是Restful风格的API,任何操作都可以通过发送http请求来完成。采用的是elasticsearch的7.12.1版本,由于8以上版本的JavaAPI变化很大,在企业中应用并不广泛,企业中应用较多的还是8以下的版本。Elasticsearch是由elastic公司开发的一套搜索引擎技术,它是elastic技术栈中的一部分。整套技术栈的核心就是用来存储、搜索、计算的Elasticsearch,接下来安装的核心也是Elasticsearch。
2025-01-19 18:13:28
1249
原创 【腾讯云】docker创建网络遇到Unable to enable SKIP DNAT rule
今天打算在服务器上安装es,但是在创建网络时,提示报错显示与防火墙有关,想到可能与之前重启过防火墙可能有关联,在结合从网络查询到信息,找到解决方法。
2025-01-19 13:47:40
447
原创 【RabbitMq】RabbitMq高级特性-延迟消息
延迟消息:发送者发送消息时指定一个时间,消费者不会立刻收到消息,而是在指定时间之后才收到消息。延迟任务:设置在一定时间之后才执行的任务如果一个队列中的消息已经成为死信,并且这个队列通过dead-letter-exchange属性指定了一个交换机,那么队列中的死信就会投递到这个交换机中,而这个交换机就称为死信交换机(Dead Letter Exchange)。而此时加入有队列与死信交换机绑定,则最终死信就会被投递到这个队列中。死信交换机有什么作用呢?收集那些因处理失败而被拒绝的消息。
2025-01-18 17:33:47
1156
原创 【RabbitMq】RabbitMq高级特性-消费者可靠性
消费者确认机制(Consumer Acknowledgement)是为了确认消费者是否成功处理消息。SpringAMQP提供了消费者失败重试机制,在消费者出现异常时利用本地重试,而不是无限的requeue到mq。幂等是一个数学概念,用函数表达式来描述是这样的:f(x) = f(f(x))。在程序开发中,则是指同一个业务,执行一次或多次对业务状态的影响是一致的。方案二,是结合业务逻辑,基于业务本身做判断。如何保证支付服务与交易服务之间的订单状态一致性?
2025-01-18 15:44:37
1126
原创 【Rabbitmq】Rabbitmq高级特性-发送者可靠性
首先通过配置可以让交换机、队列、以及发送的消息都持久化。这样队列中的消息会持久化到磁盘,MQ重启消息依然存在。RabbitMQ在3.6版本引入了LazyQueue,并且在3.12版本后会称为队列的默认模式。LazyQueue会将所有消息都持久化开启持久化和发送者确认时, RabbitMQ只有在消息持久化完成后才会给发送者返回ACK回执。
2025-01-18 11:46:14
1595
原创 【RabbitMq】RabbitMq的simple简单模式(直连模式)案例
【代码】【RabbitMq】RabbitMq的simple简单模式(直连模式)案例。
2025-01-16 15:36:00
182
原创 Docker容器内部安装vim
这个命令的作用是:同步 /etc/apt/sources.list 和 /etc/apt/sources.list.d 中列出的源的索引,这样才能获取到最新的软件包。在使用docker容器,有时候要进去容器里面编辑一些配置文件,在敲打vim命令的时候提示:vim: command not found。这时候我们可以通过apt-get install vim命令安装vim。大概的意思就是找不到vim的安装包…在安装的过程中可能会出现下面的情况。
2025-01-15 21:04:54
968
原创 【腾讯云】腾讯云安装RabbitMq
之前一直使用本地虚拟机进行学习,但因更换电脑每次需要重新配置以及切换不同电脑导致数据不同步问题,所以使用腾讯云服务器进行继续学习,这里是记录腾讯云服务器环境安装过程。
2025-01-14 15:17:20
536
原创 【RabbitMq】Mq技术选型
1.功能需求:除了最基本生产消费模型,还需要MQ能支持REQUEST-REPLY模型,以提供对同步调用的支持此外,如果MQ能提供PUBLISH-SUBSCRIBE模型,则事件代理的实现可以更加简单2.性能需求:考虑未来一到两年内产品的发展,消息队列的呑吐量预计不会超过 1W qps,但由单条消息延迟要求较高,希望尽量的短3.可用性需求:因为是在线服务,因此需要较高的可用性,但充许有少量消息丢失4.易用性需求:包括学习成本、初期的开发部署成本、日常的运维成本等。
2025-01-13 15:20:12
450
原创 【腾讯云】docker安装nacos镜像
之前一直使用本地虚拟机进行学习,但因更换电脑每次需要重新配置以及切换不同电脑导致数据不同步问题,所以使用腾讯云服务器进行继续学习,这里是记录腾讯云服务器环境安装过程。
2025-01-08 21:22:48
468
1
原创 【腾讯云】腾讯云服务器开通防火墙
之前一直使用本地虚拟机进行学习,但因更换电脑每次需要重新配置以及切换不同电脑导致数据不同步问题,所以使用腾讯云服务器进行继续学习,这里是记录腾讯云服务器环境安装过程。
2025-01-08 19:55:45
342
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人