- 博客(133)
- 收藏
- 关注
原创 Transformer详解
一:原理讲解架构图添加图片注释,不超过 140 字(可选)仅包含三个句子N 表示总数,最后的结果是去重之后的词汇量Token 是指文本中的一个基本单元,通常是词或短语。这个切分 token 的过程,称为分词(Tokenization)。Tokenization 的本质其实就是一个字符到数字的映射,其维护的是一个字典,而不是权重,也就是说每一个字符/词/短语都有一个唯一确定的数字与其对应。词粒度词粒度基本是最直观的分词手段了,也是最符合我们平时认知的方式。每一个 token 是词典中的一个词。
2024-12-25 15:59:18
696
原创 本地拉取私有仓库代码,报错
如果代码中有父工程,需要先将父工程进行拉取,下载对应的依赖,否则会有pom依赖找不到的问题。当我们本地拉去私有仓库代码的时候,出现了依赖报错。
2024-11-26 11:11:54
128
原创 测试环境搭建整套大数据系统(十九:kafka3.6.0单节点做 sasl+acl)
【代码】测试环境搭建整套大数据系统(十九:kafka3.6.0单节点做 sasl+acl)
2024-08-15 09:35:05
398
1
原创 测试环境搭建整套大数据系统(十七:mysql同步,字段类型映射错误问题)
mysql表hive表其中 type是字符串类型,但是yarn上一直报错number这个类是往int类型转才会使用到的。
2024-07-24 14:37:08
583
原创 测试环境搭建整套大数据系统(十六:超级大文件处理遇到的问题)
日志:1/1 local-dirs usable space is below configured utilization percentage/no more usable space [ /opt/hadoop-3.2.4/data/nm-local-dir : used space above threshold of 90.0% ];
2024-05-10 18:59:01
605
原创 测试环境搭建整套大数据系统(十二:挂载磁盘到hadoop环境)
将硬盘连接到计算机的 SATA 接口或 USB 接口,并确保硬盘通电并处于可用状态。
2024-03-25 11:36:01
464
原创 测试环境搭建整套大数据系统(十:测试环境minio单节点部署)
4. 查看控制台。用户名:admin密码:minioadmin备注:ip为你本台服务器的ip。5. 添加MinIO控制脚本添加启动脚本添加关闭脚本命令。
2024-03-13 13:48:27
404
原创 测试环境搭建整套大数据系统(八:搭建BI工具-dataease)
请自行下载 DataEase 最新版本的基础安装包,并复制到目标机器的 /tmp 目录下。安装包下载链接: https://community.fit2cloud.com/#/products/dataease/downloads。
2024-03-07 16:19:25
438
原创 测试环境搭建整套大数据系统(七:集群搭建kafka(2.13)+flink(1.13.6)+dinky(0.6)+iceberg)
修改以下俩内容1.三台机器分别给予各自的broker_id。
2024-02-26 11:11:50
540
原创 测试环境搭建整套大数据系统(五:搭建dolphinschduler3.1.9)
官网地址:三:添加jar包。1. 添加zk jar包。进入 zookeeper 的安装目录,将 zoo_sample.cfg 配置文件复制到 conf/zoo.cfg,并将 conf/zoo.cfg 中 dataDir 中的值改成 dataDir=./tmp/zookeeper。需要在alert-server,api-server,master-server,tools,worker-server这五个目录全部放进去。即使你使用的mysql是5.7,也要使用8.0.16以上的驱动。将驱动包放到al
2024-02-22 10:29:41
1214
原创 测试环境搭建整套大数据系统(三:搭建集群zookeeper,hdfs,mapreduce,yarn,hive,hbase)
将以下信息填写到configuration中。java_home填写自己安装的路径。三台机器配置环境变量。
2024-02-19 17:48:29
668
原创 测试环境搭建整套大数据系统(一:基础配置,修改hostname,hosts,免密,时间同步)
在 Linux 系统中,hostname 和 /etc/hosts 文件分别用于管理主机名和主机名解析。在三台服务器上,分别执行以下命令。重启reboot。
2024-01-31 10:22:11
492
原创 kerberos+kafka(2.13)认证(单节点ubuntu)
复制 bin/kafka-server-start.sh 脚本重命名为 bin/kafka-server-start-sasl.sh,倒数第二行增加如下配置。.新建 kafka-client-jaas.conf 文件,该文件也放到 Kafka 的 config/kerberos 目录下。创建用户principal。验证登录,使用密钥登录.
2024-01-30 16:44:34
1290
原创 面试篇spark(spark core,spark sql,spark 优化)
相比较map-reduce框架,spark的框架执行效率更加高效。mapreduce的执行框架示意图。spark执行框架示意图spark的执行中间结果是存储在内存当中的,而hdfs的执行中间结果是存储在hdfs中的。所以在运算的时候,spark的执行效率是reduce的3-5倍。
2023-11-28 17:43:20
373
原创 修炼k8s+flink+hdfs+dlink(七:flinkcdc)
邀请你加入共享群「工作使用重要工具」一起进行文档协作。在flink lib目录下增加你所需要的包。
2023-11-14 16:06:47
766
原创 修炼k8s+flink+hdfs+dlink(六:学习namespace,service)
我们pod有自己的服务,但是想要和外界进行数据的交互,必须有服务。
2023-10-24 16:31:17
512
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人