小贾嗯嗯-优快云博客

原创保姆级实战！Hadoop 3.4 高可用集群部署全攻略（附完整配置注释 + 生产级避坑指南）

原因：Hadoop支持的Java最新版本是Java11，而我的是17，在hadoop_env.sh改成11的JAVA_HOME就可以了。

2025-05-12 13:35:24 800

原创 [特殊字符] 程序员必知必会：从原码到补码，揭开计算机二进制的神秘面纱！

原码、反码、补码对比表概念定义规则优点缺点典型应用场景原码符号位（0正1负）+ 数值绝对值直观易懂零的双表示、运算复杂教学演示反码正数同原码，负数数值位取反过渡到补码零的双表示、进位处理早期计算机系统补码正数同原码，负数 = 反码+1（模运算）统一加减法、无歧义零需理解模运算概念现代计算机整数运算掩码核心作用：通过位运算（与、或、非）对特定位进行提取、设置、清除。生成方法1 << n（如1 << 3→0b1000（如n=4→0b1111（如m=2,n=5→。

2025-05-12 11:42:13 752

原创 [特殊字符] 重磅！Kafka 4.0 彻底告别ZooKeeper：自研KRaft架构如何让集群管理丝滑翻倍？

server.properties核心配置######################## 节点角色与控制器集群 ########################process.roles=broker,controller # 同时作为Broker和控制器node.id=1 # 节点唯一标识（node2设为2，node3设为3）# 格式：node.id@IP:控制器端口（默认9093），需包含所有控制器节点。

2025-05-10 22:03:25 542

原创大模型的Token全解析：从积木块到原子级设计的科技之旅

文章探讨了ChatGPT等AI模型如何通过Token理解人类语言。Token是AI处理语言的基本单元，类似于乐高积木，通过离散化编码和高维向量空间技术，将文字转化为数字ID和向量，使语义相近的词汇在空间中靠近。文章还介绍了BPE算法在分词中的应用，以及中文分词的挑战，如歧义消解和新词发现。此外，文章提到了Token处理中的技术优化，如KV缓存压缩和4位量化，以及未来可能的技术革命，如动态分词和视觉Token。最后，文章鼓励读者通过实验和工具深入了解Token的运作机制，强调了Token在AI语言处理中的核心

2025-05-08 22:11:57 646

原创 40亿个数中找一个数？1GB内存足够，这个算法绝了！

在处理40亿个不重复的unsigned int整数时，传统方法如哈希表或排序搜索在内存和时间效率上难以满足1GB内存限制。位图算法（Bit Map）通过使用1位（bit）来表示每个数的存在性，仅需512MB内存即可实现O(1)时间复杂度的查询。该算法将42.9亿个可能值映射到位图中，每个值对应一个位，存在则置1，不存在则置0。通过将位图分组为字节抽屉，可以快速定位和查询特定数。位图算法通过数据填充、位图构建和快速查询三个步骤，高效解决了大数据处理中的内存和时间限制问题。

2025-05-08 22:05:15 766

原创 1024程序员节，我来发个flume

FlumeFlume Source1、Avro Sourcechannelstypebindporta1.sources = r1a1.channels = c1a1.sources.r1.type = avroa1.sources.r1.channels = c1a1.sources.r1.bind = 0.0.0.0a1.sources.r1.port = 41412、Exec Sourcechennelstypecommanda1.sources=r1a

2021-10-24 22:28:16 620

原创什么？你还不会搭建大数据集群吗

大数据集群配置一、组件版本二、JDK1、解压2、配置环境变量`/etc/profile`3、分发到另外两个节点三、Hadoop完全分布式部署1、解压2、配置环境变量`/etc/profile`3、配置文件4、分发到另外两个节点5、启动hadoop集群四、Hive1、解压2、配置环境变量`/etc/profile`3、配置文件4、将mysql驱动复制到hive/lib下5、初始化元数据库6、启动Hive五、Zookeeper1、解压2、配置环境变量`/etc/profile`3、配置文件4、分发到另外两个节点

2021-10-22 19:09:39 862

原创学数据仓库，看这篇文章就够了

Hive数据仓库一、数据仓库基础1、概念2、特点效率足够高数据质量扩展性3、数据模型二、Hive数据仓库1、概念2、优点3、缺点4、Hive体系结构及执行流程4.1、Hive体系结构4.2、Hadoop集群4.3、驱动器4.4、用户接口4.5、元数据存储4.6、Hive表与元数据的映射关系4.7、Hive执行流程5、Hive数据仓库和数据库比较三、Hive环境搭建1、MySQL安装及配置2、Hive安装及配置2.1、安装2.2、配置2.3、log日志配置四、Hive基础1、Hive数据类型2、Hive数据存

2021-10-01 20:45:21 1304

原创大数据学习(四) kafka安装配置

大数据学习（四）kafka安装配置概述定义消息队列好处消息队列的两种模式kafka安装配置解压配置启动集群kafka命令行操作查看当前服务器中所有topic创建topic删除 topic发送消息消费消息kafka API异步发送API导入依赖编写代码同步发送API自动提交offset导入依赖编写代码手动提交offset同步提交offset异步提交offset自定义存储offset自定义Interceptor增加时间戳拦截器统计发送消息成功和发送失败消息数，并在 producer 关闭时打印这两个计数器pro

2021-09-06 23:00:06 383

原创大数据学习(三) zookeeper安装配置

大数据学习（三）zookeeper配置概述特点数据结构选举机制节点类型安装配置zookeeper解压配置启动命令行操作API操作添加pom依赖创建zookeeper客户端创建子节点判断znode是否存在概述Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。（什么？你说看不懂。我也看不懂那么往下看吧）Zookeeper从设计模式角度来理解：是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据的状态发生变化，

2021-08-03 09:09:04 581

原创大数据学习(二) 搭建hadoop集群

大数据学习（二）搭建hadoop集群JDK安装hadoop安装解压配置环境变量修改配置文件分发目录格式化namenode启动hadoop集群体验hdfsJDK安装先创建两个目录mkdir -p /opt/modulemkdir -p /opt/software我们把jdk和hadoop安装包上传到software目录里tar -zxvf jdk-8u161-linux-x64.tar.gz -C /opt/module/# x : 从 tar 包中把文件提取出来# z : 表示 tar

2021-07-31 15:33:39 241

原创大数据学习(一) 搭建大数据集群

大数据学习（一）搭建大数据集群新建虚拟机网络配置关闭防火墙SSH免密配置新建虚拟机打开vmware，新建虚拟机典型安装稍后安装操作系统我这里用的是CentOS-7-x86_64-Minimal-1708，所以选择CentOS7选一个位置进行安装这里可以默认点击自定义硬件我们添加一下镜像文件内存和处理器核数想改也可以改一下开启虚拟机安装按下enter键这里安装过程的语言选中文这里可以默认，主机名和网络可以安装好再进行修改设置下root密码，如果密码太

2021-07-31 08:48:22 1551

原创 Linux定时任务

Linux定时任务crontab定时任务基本语法参数说明编写定时任务特殊符号举个栗子crontab定时任务基本语法crontab [参数]参数说明参数描述-e编辑crontab定时任务-l查询crontab任务-r删除当前用户所有的crontab任务编写定时任务crontab -e进入crontab编辑页面* * * * * 执行的任务描述范围第一个*一个小时中第几分钟0~59第二个*一天中第几个小时0~23

2021-07-29 20:22:55 173

原创一篇文章教你学会shell

一篇文章教你学会shell1、什么是Shell？2、第一个shell脚本（1）作为可执行程序（2）作为解析器参数3、多命令操作4、shell中的变量（1）系统变量（2）自定义变量定义变量撤销变量声明静态变量全局环境变量（3）特殊变量5、运算符6、条件判断（1）两个整数比较（2）按照文件权限进行判断（3）按照文件类型进行判断（4）多条件判断7、流程控制8、shell函数1、什么是Shell？Shell 是一个用 C 语言编写的程序，它是用户使用 Linux 的桥梁。Shell 既是一种命令语言，又是一种程

2021-07-26 23:44:15 459

小贾嗯嗯的博客