- 博客(91)
- 收藏
- 关注
原创 Vertex did not succeed due to OWN_TASK_FAILURE, failedTasks:1 killedTasks:355, Vertex vertex_1723443
报错信息:Vertex did not succeed due to OWN_TASK_FAILURE, failedTasks:1 killedTasks:355, Vertex vertex_1723443443009_487387_1_06 [Reducer 7] killed/failed due to:OWN_TASK_FAILURE]DAG d。比如我这次的报错,就是select一个null而报错,视开发平台不同而判断。明明很简单的select语句查询却会报错,这个时候注意一下你的字段类型。
2024-08-16 22:41:01
701
原创 Revman的下载安装(win/mac)
链接: https://pan.baidu.com/s/1YBnl17qjX5jzHxLS2X4s8A?pwd=ux9n 提取码: ux9n。mac/win 的 revman 安装包链接如下。
2024-03-09 14:56:25
5702
3
原创 使用Revman绘制森林图教程
Studies and references ——》References to studies ——》Included studies 右键选择Add Study。可以对生成的森林图进行保存,可以选择保存格式,有 xml、png 等等格式可供选择。我们选择刚刚创建成功的数据分析,右键选择 Add Outcome。我们选择添加文献,这里的文献就是我们前面录入进来的。这里我们选择 nothing,finish——》第三项是针对什么专题的什么健康问题的什么研究。选择 nothing,next——》
2024-03-09 14:52:04
2404
2
原创 本地 idea 连接操作服务器上的 kafka,配置内外网映射
在 Kafka 的安装目录中的 config/server.properties文件中。172.25.38.169 是内网地址,39.106.91.145 是外网地址。注释掉原来的advertised.listeners 和 listeners。添加以下内容,将下面内容中的 IP 和端口号改成自己对应的。主要就是内外网映射的配置。
2023-12-12 09:18:55
1251
原创 centos 上redis以及远程连接工具rdm安装与使用
链接: https://pan.baidu.com/s/1R120Va9FEyraLdiPe9fBHg?链接: https://pan.baidu.com/s/1GiYnfIuQdSUmMX_4lVXVhA?复制解压目录下的 redis.conf文件到 安装目录的 bin 目录中。这里Redis安装包放在 /opt/install 目录下。进入 redis 的 bin目录(不是解压目录)解压到 /opt/soft 目录下。进入解压后的 redis 目录。如下图所指可打开命令窗口。打开另一个窗口测试一下。
2023-11-09 11:22:45
1016
原创 linux 上flink单机安装详解
百度网盘资源:链接: https://pan.baidu.com/s/15aXmF3JLxnOlPiDxId637Q?pwd=sqsx 提取码: sqsx这里准备的版本是flink1.13.2下载后上传至 linux 上,这里是上传到 /opt/install 目录下。
2023-10-31 11:10:44
944
原创 spark DStream从不同数据源采集数据(RDD 队列、文件、diy 采集器、kafka)(scala 编程)
b、实现方式: 通过ssc.queueStream(queueOfRDDs)创建DStream,每一个推送这个队列的RDD,都会作为一个DStream处理。a、自定采集器类,继承extends,并指定数据泛型,同时对父类的属性赋值,指定数据存储的级别。目前有:采集kafka、采集netcat工具的指定端口的数据、采集文件目录中的数据等。-- DirectAPI:是由计算的Executor来主动消费Kafka的数据,速度由自身控制。采集器的作用是从指定的地方,按照采集周期对数据进行采集。
2023-10-16 10:04:35
688
1
原创 spark stream入门案例:netcat准实时处理wordCount(scala 编程)
- 4. 采集器位于一个executor中,是一个线程,执行时需要一个核,如果设定的总核数为1时,那么在运行时因为没有核数,所以不会有打印结果,所以sparkStreaming使用的核数至少为2个。b、在每一个采集周期内,会执行wordcount计算,最终得出:统计出每一个采集周期时间的wordcount。a、采集周期时间之间,每一个采集周期生成一个RDD,按照时间的顺序依次进行。-- 3. 采集器在正常情况下启动后就不应该停止,除非特殊情况。-- 5. print()方法,默认是打印10行结果。
2023-10-16 09:52:53
885
2
原创 spark 与 mapreduce 对比
多进程模型的好处是便于细粒度控制每个任务占用的资源,但每次任务的启动都会消耗一定的启动时间,即MapReduce 的Map Task和Reduce Task是进程级别的,都是 jvm 进程,每次启动都需要重新申请资源,消耗了不必要的时间。所以对于下次再次使用此 RDD时,不用再次计算,而是直接从缓存中获取,因此可以减少数据加口载耗时,所以更适合需要迭代计算的机器学习算法。1)两者都是基于内存计算的,任何计算框架都肯定是基于内存的,所以说网上所说的 Spark 是基于内存计算所以快,显然是错误的。
2023-10-11 16:37:35
1332
原创 用idea工具scala 和 Java开发 spark案例:WordCount
首先准备好数据,即一个 txt 文本里面加一些单词,可以放在 hdfs 或本地或其它地方,读取的时候注意改代码,这里是读取 hdfs 上的 txt 文本,注意改成自己的地址。出现这种错误看字面意思就很容易明白,这是本地与 datanode 通信时,namenode 给的是 datanode 的内网 ip,所以本地找不到。原本就下载过这些依赖的没必要再下一遍,可以用之前的,比如 json,mysql,mysq 这里版本是 mysql 5 ,不一样的注意修改。云服务器的朋友可能有的报错。
2023-10-09 16:33:59
1175
原创 scala数组函数合集
在 scala 中Array数组是一种可变的、可索引的数据集合创建数组语法为[ ]内为数组内的数据类型(Any 表示任何类型,如果你研究过 scala 就会明白 scala 有面向对象的特点,这里 Any 就是对象的父类,类比 java 中的 object)
2023-10-08 22:02:11
670
原创 Linux安装 spark 教程详解
链接: https://pan.baidu.com/s/1Brm6XqaqYQnXQwOd8mUt7A?链接: https://pan.baidu.com/s/1ua01OvTYjFQyG82AG1g1yg?scala 的安装比较简单,spark 的运行环境需要 scala。添加配置,这里根据自己的各个安装包的位置来。这里放在了 /opt/install 目录。这里放在了 /opt/install 目录。解压至 /opt/soft 目录。解压至 /opt/soft 目录。修改后保存退出,source一下。
2023-10-07 11:48:25
2348
原创 scala 连接 MySQL 数据库案例
这里只要能打印出连接,能添加进数据就算成功,其余的无非是 Java 连接数据库的操作了,大差不差了 ,有兴趣的可以自己往下加需求。这里的 url 一样换成自己的,若是在服务器上就换成服务器 ip,若在本地就用 localhost 就可以。mysql 8 就是 com.mysql.cj.jdbc.Driver。mysql 8 就是 com.mysql.jdbc.Driver。当然为了避免下载,可以直接去你的本地仓库查看你以前下过什么版本的依赖。这里的driver 换成对应自己版本的驱动。
2023-10-05 16:52:27
1401
原创 两文学会scala (下)|保姆级别教程(超详细)
注:该偏函数的功能是返回输入的List集合的第二个元素2)偏函数原理上述代码会被scala编译器翻译成以下代码,与普通函数相比,只是多了一个用于参数检查的函数——isDefinedAt,其返回值类型为Boolean。//检查输入参数是否合格//执行函数逻辑。
2023-10-05 16:33:47
269
原创 两文学会scala (上)|保姆级别教程(超详细)
Scala将面向对象和函数式编程结合成一种简洁的高级语言。Scala的静态类型有助于避免复杂应用程序中的错误,它的JVM和JavaScript运行时让你可以轻松地访问庞大的库生态系统来构建高性能系统。1.1.1为什么学习Scala1) Spark-新一代内存级大数据计算框架,是大数据的重要内容。2) Spark就是使用Scala编写的。因此为了更好的学习Spark, 需要掌握Scala这门语言。3) Spark的兴起,带动Scala语言的发展!11.2 Scala发展历史。
2023-10-05 11:10:51
1802
原创 mac安装 scala 详细教程(包含在 idea 上使用,以及scala插件安装)
左上角 file——》project structure——》module——》点击一下 scala——》再点击上方 sources——》然后就会发现其文件夹颜色与 java 一致了。重启后——》左上角 file——》project structure——》Global Libraries——》中间区域有个+号——》选择 Scala SDK。打开 idea ——》左上角 idea——》setting——》Plugins——》搜索 scala——》点击安装。终端输入 scala,再写上几句语句试试是否正确。
2023-09-23 01:26:44
4611
2
原创 kafka的 ack 应答机制
replica) 就是 Kafka 为某个分区维护的一组同步集合,即每个分区都有自己的一个 ISR 集合,处于 ISR 集合中的副本,意味着 follower 副本与 leader 副本保持同步状态,只有处于 ISR 集合中的副本才有资格被选举为 leader。partition的leader落盘成功后返回ack,如果在follower同步成功之前leader故障,尽管 leader 已经落盘成功,但是 follower 的同步进度肯定是低于leader,这时故障,那么将会。java api 中相应参数。
2023-09-19 19:42:47
3078
原创 linux 环境变量详解/etc/proflie
Linux 环境变量是可以在多个文件中进行配置的,如/etc/proflie,/etc/profile.d/*.sh,~/.bashrc,~/.bash_profile等但是这些之间有什么区别呢。而如我们通过 ssh hadoop101 command,则在 hadoop101 上得到的就是一个non-login shell。bash的运行模式可以分为 login shell 和 non-login shell。在启动时 ,login shell 会加载如上图一中所示文件。这两种 shell 的区别在于。
2023-09-18 19:11:11
513
原创 linux安装配置 kafka并简单使用
这里提供了网盘资源链接: https://pan.baidu.com/s/1wUxEQuiPB1wRsjJ-FPPu7Q?pwd=9rm7 提取码: 9rm7这里安装包上传至/opt/insatll目录解压至/opt/soft目录解压后改个名。
2023-09-18 11:48:48
516
原创 linux安装sqoop
这里提供了网盘资源链接: https://pan.baidu.com/s/1QkFqVnlvuOJ_aB2bjn-OKg?pwd=ucsy 提取码: ucsy这里有两个压缩包,sqoop-1.4.7.tar.gz是 sqoop 的安装包,另一个是我们需要里面的一些 jar 包解压 安装包改个简单的名字方便后面操作。
2023-09-15 11:26:22
1376
原创 Caused by: org.apache.hadoop.hbase.MasterNotRunningException: java.net.UnknownHostException: can not
在 本地的hosts文件(win 后 mac 系统)中配置服务器的 ip ,和这里报错提示的字段。使用 Java api连接 hbase 发生报错,但是可以测试连接可以连上,并且能打印出连接。这个其实是我阿里云服务器实例的名字,找不到它也容易理解,就是因为没有在本地做域名映射。这里的意思是找不到iz2ze0szvj66t62cmr0u5tz。这里的问题很容易能看出来,是反复尝试访问却访问不到。这里我们主要关注一下 caused by后面的提示。当然不是云服务器报类似的错误也可按此思路找问题。
2023-09-14 16:15:39
413
原创 自动化脚本一键安装 jdk,hadoop,hive
链接: https://pan.baidu.com/s/1wKHRjcqJHRTcvmHOxsn0Bw?链接: https://pan.baidu.com/s/1IUn3I6i3MmM6hv0rThZUQg?链接: https://pan.baidu.com/s/1V8snyELkUB_XaR44OFuzNQ?链接: https://pan.baidu.com/s/1EeFzYtvx2-HV79bVQhPfIA?这里的安装包名如果和这里不一样,也需在脚本中改成相应的。这条语句里的 ip 换成你自己的。
2023-09-13 15:32:12
440
原创 安装配置 hbase
这里有网盘资源链接: https://pan.baidu.com/s/1PuqLmullK70ngeVs6G2oRQ?pwd=q93v 提取码: q93v这里安装包放在/opt/install解压到/opt/soft解压完改个简单的名字,这里改成 hbase235。
2023-09-13 13:10:32
469
原创 Error contacting service. It is probably not running.问题解决
查看zookeeper 目录下数据目录下的zookeeper.out如果你没找到这个目录那么 OK 你的问题就是 zoo.cfg 文件中数据目录设置错误zookeeper.out下报错。
2023-09-13 11:43:05
914
1
原创 安装配置 zookeeper(单机版)
拷贝zoo_sample.cfg文件,拷贝成zoo.cfg。为这个解压的目录改个简单些的名字,这里改成 zk345。在/opt/soft/zk363/zkdata创建文件。这里的安装包是放在/opt/install 目录下。在zookeeper目录内进入到conf文件夹。添加日志存储目录dataLogDir。解压到/opt/soft 目录下。日志存储目录dataLogDir。修改数据目录dataDir。创建数据目录dataDir。开启 zookeeper。修改zoo.cfg文件。关闭zookeeper。
2023-09-13 10:41:23
621
原创 java网络编程,套接字socket
多台相互连接的计算机资源共享交换数据核心要点:在网络中,多台计算机如果希望进行通信/数据传递 必须遵循某种规约,如果不遵循,则无法进行资源共享或数据的传递Socket:套接字【通信链路的节点或端点】Socket:提供给应用程序的接口。
2023-09-06 19:56:33
512
原创 下载配置 maven并在 idea 上应用
1.Maven定义:是项目构建和管理工具2.Maven定义:Apache组织下的产品(软件)3.Maven核心文件:pom文件(存储构建项目的类库的依赖)4.Maven核心文件pom文件的后缀是:XML[pom.xml]
2023-09-06 18:38:21
617
原创 hdfs 离开安全模式
大家没有关闭 hadoop 服务就关机,有些时候某些设备再开启启动就会进入一种安全模式。使用下面命令就能离开安全模式正常使用。
2023-09-06 08:51:58
908
原创 hive 基础知识
在本节前我们需要明确 hive 是什么上面两个代码块,左边的是 mapreduce 的代码块,右边的是hive 的代码块很容易看出来,右边的 hive 写起来要更容易更快些,而执行效率,右边的 hive 只比左边多一个翻译的过程,就是将写的 HQL语句 翻译成 mapreduce 去执行简单来说 hive 就是一个中间件,可以让我们写的 HQL 语句可以被翻译成 mapreduce去执行,让我们不必再去写 mapreduce 的代码,提升我们的开发效率。
2023-09-05 18:25:25
449
原创 在 linux 虚拟机上安装配置 hive
链接: https://pan.baidu.com/s/18jF-Qri0hc52_rtL61O0YQ?将hive-default.xml.template改成hive-default.xml。到 install 目录下(install文件夹是我们用来存放安装包的自定义的文件夹)拷贝mysql8的驱动到/opt/soft/hive312/lib目录内。下载后上传到 linux 虚拟机的/opt/install文件夹下。下面命令在 hive312/lib 目录下进行。删除该目录下的 guava 文件。
2023-09-05 16:38:09
898
原创 idea 打 jar 包以及运行使用
打 jar 包的时候 test 里的 test 类中不能有代码,如果有会报错,可以注释掉。6. jar 包的名字和版本可以在 pom.xml文件中设置。2. 点击Lifecycle——》clean 运行。3. 点击 Lifecycle——》compile。4. 点击 Lifecycle——》package。5. 打成的 jar 包可以在 target中找到。1. 在 idea 右侧点击 maven。
2023-08-30 16:41:36
1269
2
原创 hadoop学习:mapreduce入门案例四:partitioner 和 combiner
先简单介绍一下partitioner 和 combinerPartitioner类Combiner类我们进入案例来看这两个知识点。
2023-08-30 16:21:14
1297
原创 Linux 虚拟机同步时间crontab以及crond详解
Crontab命令常见于Unix 和Unix的操作系统之中,用于设置周期性被执行的指令。该命令从标准输入设备读取指令,并将其存放于“crontab”文件中(是‘’cron table”的简写),以供之后读取和执行。该词来源于希腊语chronos,原意是时间。通常,crontab存储的指令被守护进程激活,crond常常在后台运行,每分钟检查是否预定的作业需要执行。
2023-08-30 10:16:04
2176
原创 hadoop 学习:mapreduce 入门案例三:顾客信息与订单信息相关联(联表)
这里的知识点在于如何合并两张表,事实上这种业务场景我们很熟悉了,这就是我们在学习 MySQL 的时候接触到的内连接,左连接,而现在我们要学习 mapreduce 中的做法这里我们可以选择在 map 阶段和reduce阶段去做数据:链接: https://pan.baidu.com/s/1PH1J8SIEJA5UX0muvN-vuQ?pwd=idwx 提取码: idwx顾客信息订单信息编写实体类 CustomerOrder。
2023-08-29 19:38:41
209
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人