- 博客(12)
- 收藏
- 关注
原创 yarn指向了java
本地安装了java、hadoop和nodejs,并配置了环境变量,但是hadoop的bin目录下存在yarn命令,所以使用nodejs的yarn命令启动项目会出现找不到类,此时键入yarn -version也会显示java的版本。 解决办法是使用yarnpkg,它等同于yarn。 ...
2021-12-04 11:03:44
318
原创 pg数据库-获取每组数据中时间最小的一条数据
SELECT DISTINCT ON (customer) id, customer, total FROM purchases ORDER BY customer, total DESC, id;
2021-08-02 18:33:07
1217
1
原创 查询删除的数据
select * from ques_t_questionnaire as of timestamp to_timestamp(‘2021-06-28 10:50:00’,‘yyyy-mm-dd hh24:mi:ss’)
2021-06-28 11:11:33
157
原创 Spark:序列化
1、为什么要序列化 因为在Spark程序中,算子相关的操作在Excutor上执行,算子之外的代码在Driver端执行,在执行有些算子的时候,需要只用到Driver里面定义的数据,这就涉及到了跨进程或着跨节点之间的通讯,所以要求传递给Excutor中的数组所属的类型必须实现Serializable接口 2、如何判断是否实现了序列化接口 在作业job提交之前,其中有一行代码 : val cleanF = sc.clean(f),用于进行闭包检查,之所以叫闭包检查,是因为在当前函数的内部访问了外部的函数变量,属
2021-03-24 22:43:13
340
原创 hadoop集群脚本
1、集群分发脚本 #!/bin/bash #验证参数 if(($#!=1)) then echo 请输入要分发的单个文件! exit; fi #获取分发文件的绝对路径 dirpath=$(cd `dirname $1`; pwd -P) filename=`basename $1` echo 要分发的文件的路径是:$dirpath/$filename #获取当前的用户名 user=$(whoami) #循环执行rsync分发文件到集群的每条机器 for((i=101;i
2021-02-13 07:52:07
139
原创 Hadoop运行环境搭建
分布式集群搭建步骤分析: 1)安装JDK 2)配置环境变量 3)安装Hadoop 4)配置环境变量 5)配置集群 6)单点启动 7)配置ssh 8)群起并测试集群 1、安装JDK 2、hadoop安装 1)Hadoop下载地址: https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/ 2)环境变量: ##HADOOP_HOME export HADOOP_HOME=/opt/module/hadoop-2.7.2 export PATH=$P
2021-02-10 00:52:29
246
原创 There is insufficient memory for the Java Runtime Environment to continue
【解决问题】 修改/etc/security/limits.d/90-nproc.config 此文件内容: # Default limit for number of user's processes to prevent # accidental fork bombs. # See rhbz #432903 for reasoning. * soft nproc 1024 root soft nproc unlimited ...
2021-02-05 23:01:09
465
转载 yum命令,出现Error: Cannot find a valid baseurl for repo: base报错
echo "https://vault.centos.org/6.8/os/x86_64/" > /var/cache/yum/base/mirrorlist.txt echo "https://vault.centos.org/6.8/extras/x86_64/" > /var/cache/yum/extras/mirrorlist.txt echo "https://vault.centos.org/6.8/updates/x86_64/" > /var/cache/yum/upda
2020-12-28 23:55:25
628
原创 Linux安装mysql
一、安装包准备 1.查看mysql是否安装,如果安装了,卸载mysql (1)查看 [root@hadoop102 桌面]# rpm -qa|grep mysql mysql-libs-5.1.73-7.el6.x86_64 (2)卸载 [root@hadoop102 桌面]# rpm -e --nodeps mysql-libs-5.1.73-7.el6.x86_64 2.解压mysql-libs.zip文件到当前目录 [root@hadoop102 software]# unzip
2020-10-10 18:14:44
134
原创 Hive安装部署
1.Hive安装及配置 (1)把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下 (2)解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面 [ren@hadoop102 software]$ tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/module/ (3)修改apache-hive-1.2.1-bin.tar.gz的名称为hive [ren@ha
2020-10-10 17:46:23
140
原创 Hive入门
1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 1)Hive处理的数据存储在HDFS 2)Hive分析数据底层的实现是MapReduce 3)执行程序运行在Yarn上 1.2 Hive的优缺点 1.2.1 优点 1)操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。 2)避免了去写MapReduce
2020-10-03 12:30:45
234
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅