- 博客(57)
- 收藏
- 关注
原创 Unknown system variable ‘tx_read_only
但是使用pycharm就会报一个错误。使用datagrip可以创建成功。
2024-02-08 15:53:46
634
原创 org.apache.thrift.transport.TTransportException: java.net.SocketException: Software caused connectio
hive没有开,我用的CDH,应该是记差了原以为会自动开启。错误发生在,我创建好库,创建好表,往表中插入好数据。
2024-02-06 15:59:14
526
原创 自己实现的小功能
将文本模式的csv文件作为表编辑之后,先要再变回来。找了5分钟都没找到,去网上搜也没搜到解决方案复制一份,对没错。不是把表遍历一遍,重新将数据写入。3.5给的答案就是重新写入一个新的文件问题二:在做回测时,又发现了数据有问题。
2024-01-31 10:22:36
178
原创 无法进入3.5
不管是手机还是电脑,一定一定把缓存记录全部清除了【不然还是进不去】,不会清理那些数据就直接把软件卸载了,重新按照。我自己存在这样一个问题,用美国的这个节点能进去,用日本的进不去。
2024-01-29 11:19:07
131
原创 StructuredStreaming输出模式和结果输出文件中
update 支持聚合,支持select单纯的查询 不支持聚合后排序,每次输出时,只展示最新聚合后的结果。#complete 必须聚合,支持聚合后排序 每次输出数据都会将原来的数据一起输出。#append 不支持排序,不支持聚合, 每次输出数据都是最新的数据内容。#format指定输出位置 console:控制台。也就是说不支持聚合结果输出到文件当中。
2024-01-19 21:41:53
492
原创 Spark流式读取文件数据
df_json = ss.readStream.json(‘hdfs://node1:8020/目录’)df_csv = ss.readStream.csv(‘hdfs://node1:8020/目录’)场景:某天你上传一个文件,发现它不做任何读取和处理,你需要考虑,这个文件名以前是否处理过了。文件的读取方式在实际开发中用的比较少,每生产一条数据,就要生成一个文件(你修改了文件一的内容,不修改文件名,你再次上传会发现它不去读取。但是你不修改文件内容,修改文件名,你再上传会发现它还会去读取。
2024-01-19 17:21:46
629
原创 Linux基础命令(超详细)
home目录就是家目录,每个用户都有自己不同的家目录,两个不同的用户不能共用一个家目录。注意: 超级管理员用户有且只有一个,拥有最高权限(能自毁)当我们进入linux系统时,系统会默认加载到。超级管理员用户的家目录 : /root。普通用户的家目录: /home/用户名。命令: 告诉我们要做什么事。查询当前工作目录的绝对路径。
2024-01-18 15:19:06
520
原创 spark-udf函数
from pyspark.sql import SparkSessionfrom pyspark.sql.types import *ss = SparkSession.builder.getOrCreate()df_csv = ss.read.csv(‘hdfs://node1:8020/user/hive/warehouse/data/stu.csv’,schema=‘name string,age int,gender string,phone string,email string,city s
2024-01-17 15:56:18
1168
原创 Linux重点
Linux命令的组成?a. 命令本身,选项,参数。查看的两个操作a. cat 适合小文件b. more分页查询适合中文件创建文件的选项有啥?创建文件的小技巧a. 选项有-pb. 不管是否创建创建递进的文件,先给-p加上,加上不会报错复制文件的选项有啥?复制文件的小技巧,复制文件能重命名吗?给个案例a. -r,注意这里很容易和-p混淆b. 同上,复制文件不管三七二十一加上-rc. cp /code/1.txt /mode/2.txt移动文件有选项吗?移动能重命名吗?给个案例a.
2024-01-14 17:42:31
471
原创 Kafka
多个broker会选取产生一个控制器, 类似zk中 leader角色。kafka集群运行后,每台服务器上的kafka称为一个broker节点。分区(分片) Partition。副本 Replication。处理消费者和生成者的请求。偏移量(offset)
2024-01-14 17:39:34
566
原创 Spark-RDD的依赖
服务启动: /export/server/spark/sbin/start-history-server.sh。程序运行期间查看 4040端口 交互式开发。程序运行结束后查看 18080端口。Spark中有DAG管理依赖关系。日志查看依赖关系和计算流程。rdd之间是有依赖关系。
2024-01-13 08:56:16
509
原创 SPARK--cache(缓存)和checkpoint检查点机制
也是将中间rdd数据存储起来,但是存储的位置实时分布式存储系统,可以进行永久保存,程序结束不会释放。缓存是将数据存储在内存或者磁盘上,缓存的特点时,计算结束,缓存自动清空。如果需要删除就在hdfs上删除对应的目录文件。
2024-01-13 07:48:29
741
原创 Spark算子(RDD)超细致讲解
map,flatmap,sortBykey, reduceBykey,groupBykey,Mapvalues,filter,distinct,sortBy,groupBy共10个转换算子。
2024-01-12 15:54:32
1638
原创 Spark-RDD详解
rdd中封装了各种算子方便进行计算,主要分为两类转化算子 对rdd数据进行转化计算得到新的rdd,定义了一个线程任务action执行算子 触发计算任务,让计算任务进行执行,得到结果触发线程执行的。
2024-01-12 09:40:49
1867
原创 Spark理论知识—1
(base)node1: pyspark --master spark://node1:7077,node2:7077 但是你前提得开启zk服务,并在另一台服务器开启备用服务 高可用模式。进入的是本地模式 在node1上输入就使用node1的资源,在node2上输入就使用node2的资源[代码测试用]sftp服务,将本地目录和远程服务器上的目录做映射,将本地代码文件同步到远程服务器上。如何只启动spark计算引擎,而不启动spark自带的资源调度服务。注意这里是all.sh是把所有的都启动了。
2024-01-10 10:37:05
549
原创 每日报错整体
1/8报错1、卸载python出现报错如何解决2、pip常用命令3、在pychram中安装第三方包的常见问题使用2021版本的pycharm时老是会出现这样的问题看到这个 user 我想到了是不是没有权限的问题,然后使用 管理员权限 打开 命令提示符 ,在这里使用安装命令,执行成功。4、同一个版本的python,之前在D盘装过,再在C盘装会出现问题D盘之前装过python38,当想在C盘也装一个的时候,按照正常流程走完之后,C盘里面的python38是空的。
2024-01-09 10:32:16
798
原创 常用BI报表数据集参数--超细致
我自己尝试去写,然后错了,因为确认之后没有弹出来让我选择。单引号必须得在外面,不然你出来的时候找不到参数组件。还有一个是判断语句,不筛选也能展示全部数据。这个是不点击查询显示报表内容。
2024-01-05 21:08:16
554
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人