澄绪猿-优快云博客

原创 Spark读取文件系统的数据(sbt打包测试)-入门级别Demo

下载sbt安装文件sbt-1.3.8.tgz，也可直接使用已经下载好的安装文件。安装scala程序的构建工具sbt，可以到。操作系统：Ubuntu 16.04；Hadoop版本：3.1.3。,然后，统计出文件的行数；工具将整个应用程序编译打包成。Spark版本：2.4.0；语言），读取HDFS系统文件。2.下面使用vim编辑器在。,然后，统计出文件的行数。中读取HDFS系统文件。编写独立应用程序（使用。生成的JAR包的位置为。

2025-03-21 18:58:29 604

原创假期旅行数仓项目--OLAP

项目流程： hive : hvie-site.xml启动mysql 的binlog日志配置flume-ng文件采集kafka—incdb 主题消费到的数据并上传至hdfsflume-config开启maxwell监听：flume采集：maxwell监听mysql ---> kafka ----> flume ----> HDFSHdfs结果：模拟生成的sql文件：数仓：### ods层ods_aoi_fullmaxwell josn数据ods_user_travels_inc表ods_user_act

2024-09-24 14:08:34 558

原创大数据Spark面试冲击题直拿offer

一、简答题1.Spark master使用zookeeper进行HA的，有哪些元数据保存在Zookeeper？答：spark通过这个参数spark.deploy.zookeeper.dir指定master元数据在zookeeper中保存的位置，包括Worker，Driver和Application以及Executors。standby节点要从zk中，获得元数据信息，恢复集群运行状态，才能对外继续提供服务，作业提交资源申请等，在恢复前是不能接受请求的。另外，Master切换需要注意2点1）在Master切

2024-06-05 21:43:18 1174

原创 Spark中的CSV文件Option参数介绍（巨详细）

【代码】Spark中的CSV文件Option参数介绍（巨详细）

2024-06-01 00:12:16 789

原创 MVC架构中的servlet层重定向404小坑

submit之后去找servlet层中的UserLoginServlet.java 进行逻辑判断---> 重定向操作。另一个注意点：就是创建对象获取数据库中的user/pwd时new 数据类型是UserService 父类。这里的webservlet中的路径是严格区分大小写的，写错小个小点都会在登录时重定向报404找不到资源。servlet层中的UserLoginServlet.java。创建servlet映射对应到页面表单的跳转。：这里必须要在web.xml中配置上。

2024-05-29 22:38:49 1021

原创解决flink“/packages无法表示为URI”时而报错问题

在项目结构中去掉name中的- 应用即可。maven构建索引出问题。

2024-05-27 15:25:05 160

原创 Jsp 中的getServletContext全局数据共享

每一个web程序都会创建一个对应的servletContext 对象，它表示当前的web应用，做到了共享数据，在一个servlet中保存数据，在另一个servlet 中拿数据。eg：如何servlet 没有先保存数据就去get username数据是获取不到的。这样就实现了servletContext 的数据共享在不同的servlet。1. 一个用户将数据保存到了servletContext中,上述中的username保存的样式是数据开发的str。eg :先去保存数据，然后在去拿数据即可。

2024-04-17 23:26:42 593

原创广播变量在spark中的用法以及数据倾斜问题的解决方法

广播join 发生在map端非reduce 端无需通过网络传输shuffle就可以到达reduce 端，减少I/O，hive将小表的数据全部加载到map task 的内存中作为广播变量，然后对每一条大表的record ，在本地内存中查找是否有匹配的小表record ，并立即完成join操作，：在处理大规模的join操作时，其中一方的数据集明显较小，就是所谓的小表就可以通过广播join，将小的数据集加载到每一个map task的executor的内存中，问题，显著提高了join的操作效率。

2024-04-16 00:46:22 1165

原创 UDTF函数 explode

因为炸开后， movie 列值少于categoryname 列所以这里为了达到targetType 需要使用到。explode 将hive 中复杂的 array 炸成多行。explode结合侧面视图达到targeType。split 处理到一个Array 形式。

2024-04-14 21:52:20 258

原创数仓中的数据倾斜问题

spark webUI中的stages 页面的中就是stage数量：宽依赖数（shuffle 数量）导致宽依赖的算子数 +n（读取表的数量）查看每一个task的执行时间如何有明显的和其他的task的执行时间相差很大，以及一个查询任务一致卡在某个点跑了很久都没出结果就是数据倾斜了。在计算时会对每一个小文件启动一个map ，很影响计算的性能，以及磁盘的寻址时间。数据分布不均匀的问题再第一次mr中已经有很大的改善了。点击不同的stage 可以跳转到对应的task中的。hive中的小文件存储过多的危害。

2024-04-14 21:22:23 463

原创离了个大谱，虚拟机莫名其妙的虚拟机网卡驱动启动不了，日志显示：failed

今天用xshell连接虚拟机时死活连不上，检查来检查去都没问题，结果居然是....网上回答一大堆，最后问题就出在了networkmanager。

2024-04-11 20:14:51 381

原创 hive-分桶-索引(初篇)

alter index 索引名称 on table_name rebuild;# 其中的source_data 表中的数据一定是提前分好桶的。其中x表示分几个桶进行抽样，y表示间隔几个桶进行一次分桶。刚创建完hive的索引表是数据的，需要生成索引数据。创建分桶表之前要先设置hive允许进行强制分桶配置。查询分桶表 - > 高效抽样，通过桶号进行抽样。

2024-04-09 00:00:46 618

原创数仓-hive DDL (带你手敲秒懂hive三种常见分区)

中hive允许创建最大分区数值1024，避免在进行动态分区时产生过多的小文件分区，造成数据倾斜问题，# 这里设置为true，程序会在某个动态分区为null时，hive将在完成最后一个任务后报一个错误，# 如果不想因为null动态分区影响整个hive的动态分区，就设置为false即可。# 规定hive运行中创建最大文件数限制，使用动态分区之前要开启动态分区。创建外表同时指定静态分区字段。上可以创建的最大分区数量，

2024-03-31 19:04:29 1115

原创 HBase入门篇

hbase备份hive数据over ，可以删掉重点的外表了。使用其mr的计数统计类来进行计数统计。多练多敲很容易记下哦。

2024-03-26 13:46:52 435

原创 clickhouse快速入门（入门篇必看必会）

eg : UInt8、UInt16、String、DateTime, TimeStamp 但是比函数名不敏感：SUM()-> sum()4. clickhouse对于schema的定义是很严格的严格再类型必须。2. 再外部连接clickhouse客户端并导出表中数据到本地。1. 启动clickhouse-client。5. 建表语句存储引擎： MergeTree。6. 建表存储引擎： Log 没有约束。9. 写入csv文件并忽略表头字段。与mysql中不同哦。

2024-03-26 12:21:54 484

原创关于v1.29.2 版本的Maxwell存在于mysql8.0后版本部分源码字符集处理确实问题

3.1 还可以不用降低这个org.jgroups组件类，就是去升级jdk到11也行。4.如果你在打包时报：因为项目没有写test，导致打包test检测出错。将这个org.jgroups的版本降低到0.5.2.Final。StringColumnDef.java 做如下修改。1. 先去GitHub下载源码.zip文件。ok.... 至此就可以打包上传了。

2024-03-20 23:17:23 416

原创 Maxwell监听mysql的binlog日志变化写入kafka消费者

一. 环境： maxwell:v1.29.2 (从1.30开始maxwell停止了对java8的使用，改为为11)2.查看mysql生成的binlog日志文件:正常会生成二个文件一个初始化文件，一个索引记录文件。maxwell可以成功将监听到的binlog日志信息写入到kafka的主题中去消费。1. 配置mysql的my.cnf配置文件开启binlog日志。4.1.2 ： binlog消费到kafka的topic中。这种config式的配置之后在使用指令式的时候。4.2 指定config文件式。

2024-03-20 22:59:21 960

原创 kakfa模拟仿真篇之spark-submit在linux运行 (更贴近真实场景)

6 . –executor-memory MEM：设置每一个executor的运行内存（占用工作节点内存，主要用于执行任务的内存开销），executor代表work节点上的一个进程。8 . –executor-cores NUM：设置执行任务的每一个executor的CPU核数（yarn模式有效，默认为1或者工作节点的总CPU核数（standalone模式有效）依赖于pom文件中的一些依赖项组件就只需要执行：original-ReadFile-1.0-SNAPSHOT.jar 这种的jar包即可；

2024-03-14 22:49:26 1181

原创 Kafka模拟器产生数据仿真-集成StructuredStreaming做到”毫秒“级实时响应StreamData落地到mysql

而且这里不能用foreach ，否则无法序列化就能存储到mysql，不能被序列化的数据是不能在网络中进行传输的，通过二进制流的形式传出，在被反序列化回来转化为对象的形式存储。kafka消费sink端和StructuredStreaming集成通信成功，数据接收全部接收。如果你看到者你会知道scala在11更新之后也就是12版本后在做。partitionOfRecords => ... 这个位置。的Iterator，所以需要转为rdd在做处理。存储按照一定批次量做存储。

2024-03-14 21:13:22 840

原创基于docker 配置hadoop-hive-spark-zeppelin环境进行大数据项目的开发

转载项目文章

2024-03-10 12:30:03 659

原创 py脚本模拟json数据，StructuredStreaming接收数据存储HDFS一些小细节 ERROR:‘path‘ is not specified

py脚本不断产生数据写入linux本地，通过hdfs dfs 建目录文件来实时存储到HDFS中。format落地格式（parquet ， json ...）具体场景具体分析。很多初次接触到StructuredStreaming 应该会写一个这样的案例。如果只是对数据进行处理然后打印到console 不用指定sink path。1. 指定数据schema：实时json数据。3. 结果落地位置： HDFS。2. 数据源地址：HDFS。这个小案例重点在于数据传输。

2024-03-10 11:15:21 566

原创 maven打包scala程序

在执行jar包时关于Error: A JNI error has occurred, please check your installation and try again这个保存问题再确保。2.pom文件中指定了mainClass元素确定了程序主入口。配置后这里有上述箭头指向的二个配置项即可；进而可以避免在执行jar包时由于缺少。依赖而导致的类找不到问题而报错哦。1.javac和java版本一致。pom文件打包scala程序。

2024-02-19 15:38:20 1569

原创 yum一直出现正在尝试其它镜像... 解决方法

4. 下载了阿里云提供的CentOS 7的Yum源配置文件，并将其覆盖到系统中的 /etc/yum.repos.d/CentOS-Base.repo。已成功生效新配置阿里云镜像. 至此解决问题。更改yum镜像源地址为阿里云镜像即可。1. 去ail云yum镜像源官网。3. 先备份原yum配置文件。

2024-01-31 19:15:16 5510 3

原创关于mysql默认禁用本地数据加载的情况处理(秒解决)

1.首先报错信息：ERROR 3948 (42000): Loading local data is disabled;修改配置文件后就重新启动进入MySQL即可解决问题导入外部数据喽。在mysql的my.ini配置文件中添加。之后重进mysql c端即可；这种情况off说明是禁止状态。

2024-01-26 00:01:12 2276 1

原创手把手教你快速掌握连接远程git仓库or赋值远程仓库到本地并上传代码到gitee

2.3 打开git bash 配置用户名，邮箱， ssh 公钥这里的用户名是git个人注册的用户名成如这里是gitflink。4.1 我们再次去到gitee个人中心刷新会看到master分支下有一个Test.txt的文件已经被成功上传哦。之后在git bash终端切换到已经初始化与远程仓库关联的本地Git仓库中。注册一个账号，然后去我的新建一个仓库，这里是演示一下新手第一次操作的流程。的分支，你需要创建一个新分支或选择已存在的分支进行关联。分支推送到远程仓库，并将其关联到远程仓库的。

2024-01-24 22:06:33 861

原创 TOMCAT乱码问题solve

2.1、在tomcat目录的bin文件下找到catalina.bat修改216行左右。添加：content=“text/html”;charset=“utf-8”解决使用tomcat服务器打开网页的时候出现中文乱码问题。2.2、在tomcat的server.xml配置。2.3、在项目的idex.html(项目首页)添加：URIEncoding=”UTF-8”2.4、在tomcat的web.xml。

2024-01-15 20:04:19 704

原创 Harmony OS开发

TypeScript是javaScript的一个超集ArkTS基于TypeScript语言，拓展了声明式UI，状态管理，并发任务等能力。

2024-01-04 19:31:26 544

原创 linux修改mysql默认端口（很明智的选择因为后面会遇到各种问题）

2.编辑/etc/my.conf 文件添加port=3506 这样的样式保存退出；3. 重启mysqld即可；

2023-12-17 20:09:54 852

原创关闭Hbase集群发现一直处于等待的状态，一个指令解决

之后查阅后发现只需要在执行stop-hbase.sh 指令之前要先将HMaster进程单节点关闭后，在执行stop-hbase.sh 指令即可关闭Hbase集群中的进程。今天在使用hbase集群后，关闭的时候发现执行了stop-hbase.sh指令后一直处于等待的状态。先执行：hbase-daemon.sh stop master。后执行：stop-hbase.sh。

2023-12-15 00:01:07 1314

原创神经网络中梯度消失以及梯度爆炸的原因已解决办法

综上所述，深度神经网络中的梯度消失和梯度爆炸问题都会导致网络训练过程中的梯度无法有效传播或者传播过于剧烈，从而影响网络的收敛性和性能。为了解决这些问题，可以使用合适的激活函数、权重初始化方法、正则化方法、批标准化以及梯度裁剪等技术。这些方法可以有效地减少梯度消失和梯度爆炸问题，提高深度神经网络的训练效果该文章总结的很好，所以在此转载一下详解深度神经网络中常见的梯度消失和梯度爆炸及其具体的解决方案 (baidu.com)

2023-12-14 11:54:39 726

原创使用Git客户端向gitee免密推送项目代码（保姆级流程哦）

3.进入git-bash 根据如下的代码一次执行只需要修改对应的username和自己再gitee中绑定的邮箱。标题可以更具你当前的这个项目名称起即可，公钥就是在git-bash中产生的公钥cv即可；至此就可以使用Git的客户端向gitee免密来上传项目code了。1.进入Git官网手动下载git的客户端可执行程序。产生私钥的时候回车三次即可；查看私钥如下图及正常；2.找到安装路径下的。正常输入yes即可；

2023-11-28 22:54:36 914

原创关闭java开发工具idea中maven SSL验证

接口关闭ssl验证解决maven依赖的下载失败问题。

2023-10-18 09:35:03 1433 1

原创 Maven相关配置新手保姆式引导

在如上图的位置中加入55行这段内容：其中localRepository这个标签内的位置为你自己设置的localRepository的绝对地址哦，到此本地仓库位置配置完成。4.配置本地仓库位置：（默认会保存到c盘下，手动配置修改settings文件更改本地仓库位置到d盘）6.配置jdk的版本，将如下的配置添加到settings.xml文件中去结果图入6.1。然后打开conf 文件夹下的settings.xml文档：进行如下操作。到此maven的相关文件的配置就结束了.5.1点击maven配置指南。

2023-10-17 20:57:36 130

原创计算机python二级最详细指南，考级比看

序列都可以进行的操作包括索引，切片，加，乘，检查成员，此外，Python已经内置确定序列的长度以及确定最大和最小的元素的方法，序列是最常用的Python数据类型，它可以作为一个方括号内的逗号分隔值出现，下面是一些需要掌握的对列表的一些操作。考查seed()、random()、randint()、getrandbits()、randrange()、uniform()、choice()、shuffle()、sample()（1）程序的格式框架、缩进、注释、变量、命名、保留字、数据类型、赋值语句、引用。

2023-09-19 20:01:43 7340

原创 ML特征工程中通过主成分分析对数据集进行降维压缩精准特征分类

接口：sklearn.decomposition.PCA(n_components = None)PCA降维最理想的效果是：即极大程度上的降低了数据集的维度，又保留了最多的数据集的message。传参：n_components 传参为小数时表示保留百分之几的信息；传参为整数时表示减少到多少维度的数据集。2.合并表（判断相关性的特征）1.主成分分析PCA降维。3.找到相关性之间的关系。

2023-09-15 14:59:50 124

原创简单分享机器学习在特征工程中对数据做无量纲化处理提高模型准确率

对x_test只进行一个transform的一个转化，因为在上面以及对数据进行了一个fit，所以这里不用再对数据进行放缩处理，直接用上面特征值的数据放缩程度来进行一个转化即可。1.1 这里提到的无量纲化处理(简单讲就是对整体数据进行统一的放缩为均值为0，标准差为1的范围)，该方法适用于数据精确的小数据场景，但很容易收到min和max值的影响所以不适用于数据集中存在极大极小值的场景。# x_test为训练集中的目标值，，该方法的优点是：较稳定不会受到数据中异常值的influence。

2023-09-11 18:10:09 355

原创 ImportError: cannot import name ‘joblib‘ from ‘sklearn.externals‘ 报错解决！！！

之前的from sklearn.externals import joblib或者是from sklearn.utils import joblib。1.该报错是应为sklearn的版本太高的问题。这二个接口都已经不存在了。

2023-08-19 15:30:53 915 1

原创 Linux系统中的root用户和普通用户相比，新建普通文件和目录的默认权限值？「一定要看完」

case ：如果umask值为022（就是root用户的umask值），则新建目录的权限值为：0777-022 =同理对于普通用户的umask值为002而言新建目录的权限值为：0777-002=注：这里补充一点如果文件模板的权限值为0777，则不受umask的影响；权限为0666，因此新文件的默认权限值为：0666-022 =1.- root用户的umask为022，

2023-06-24 15:24:03 2005 1

原创机器学习SKlearn多层感知器中的正则化

Alpha是正则化项（也称为惩罚项）的参数，它通过限制权重的大小来防止过度拟合。增加alpha可能会通过鼓励较小的权重来解决大方差（过度拟合的迹象），从而导致决策边界图以较小的曲率出现。同样，降低alpha值可能会通过鼓励更大的权重来解决高偏差（欠拟合的迹象），从而可能导致决策边界更加复杂。比较合成数据集上正则化参数“alpha”的不同值。该图显示不同的alpha产生不同的决策函数。参考于：多层感知器中的正则化-scikit-learn中文社区。

2023-06-13 12:58:08 335

原创新人入门数据可视化，关于对pandas数据对象中的plot()函数与matplotlib库下pyplot子模块中plt.plot()概念的混淆问题解决！！！(新人看完醍醐灌顶 )

具体来说，在使用matplotlib绘图时，我们通常会使用plt.show()函数将图形显示出来。这段代码案例中对于iris对象调用plot绘图函数且在函数的内部没有指定kind的图形样式，那plot（）理论上应该就为折现图，但是，函数中有指定参数sytle ='k.' 意思为用黑的的点来填充，命令可以在Notebook中直接显示图形输出，并嵌入到Notebook中，而不是另外打开新的窗口或其他程序。. 使用matplotlib库中的pyplot子库，可以绘制许多类型的图形，函数即可绘制出符合需求的图形。

2023-06-13 12:50:23 1764

空空如也

空空如也