如此生活丶-优快云博客

原创 yarn指向了java

本地安装了java、hadoop和nodejs，并配置了环境变量，但是hadoop的bin目录下存在yarn命令，所以使用nodejs的yarn命令启动项目会出现找不到类，此时键入yarn -version也会显示java的版本。解决办法是使用yarnpkg，它等同于yarn。 ...

2021-12-04 11:03:44 318

原创 pg数据库-获取每组数据中时间最小的一条数据

SELECT DISTINCT ON (customer) id, customer, total FROM purchases ORDER BY customer, total DESC, id;

2021-08-02 18:33:07 1217 1

原创查询删除的数据

select * from ques_t_questionnaire as of timestamp to_timestamp(‘2021-06-28 10:50:00’,‘yyyy-mm-dd hh24:mi:ss’)

2021-06-28 11:11:33 157

1、为什么要序列化因为在Spark程序中，算子相关的操作在Excutor上执行，算子之外的代码在Driver端执行，在执行有些算子的时候，需要只用到Driver里面定义的数据，这就涉及到了跨进程或着跨节点之间的通讯，所以要求传递给Excutor中的数组所属的类型必须实现Serializable接口 2、如何判断是否实现了序列化接口在作业job提交之前，其中有一行代码： val cleanF = sc.clean(f)，用于进行闭包检查，之所以叫闭包检查，是因为在当前函数的内部访问了外部的函数变量，属

2021-03-24 22:43:13 340

原创 hadoop集群脚本

1、集群分发脚本 #!/bin/bash #验证参数 if(($#!=1)) then echo 请输入要分发的单个文件! exit; fi #获取分发文件的绝对路径 dirpath=$(cd `dirname $1`; pwd -P) filename=`basename $1` echo 要分发的文件的路径是:$dirpath/$filename #获取当前的用户名 user=$(whoami) #循环执行rsync分发文件到集群的每条机器 for((i=101;i

2021-02-13 07:52:07 139

原创 Hadoop运行环境搭建

分布式集群搭建步骤分析: 1）安装JDK 2）配置环境变量 3）安装Hadoop 4）配置环境变量 5）配置集群 6）单点启动 7）配置ssh 8）群起并测试集群 1、安装JDK 2、hadoop安装 1）Hadoop下载地址: https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/ 2）环境变量： ##HADOOP_HOME export HADOOP_HOME=/opt/module/hadoop-2.7.2 export PATH=$P

2021-02-10 00:52:29 246

原创 There is insufficient memory for the Java Runtime Environment to continue

【解决问题】修改/etc/security/limits.d/90-nproc.config 此文件内容： # Default limit for number of user's processes to prevent # accidental fork bombs. # See rhbz #432903 for reasoning. * soft nproc 1024 root soft nproc unlimited ...

2021-02-05 23:01:09 465

转载 yum命令，出现Error: Cannot find a valid baseurl for repo: base报错

echo "https://vault.centos.org/6.8/os/x86_64/" > /var/cache/yum/base/mirrorlist.txt echo "https://vault.centos.org/6.8/extras/x86_64/" > /var/cache/yum/extras/mirrorlist.txt echo "https://vault.centos.org/6.8/updates/x86_64/" > /var/cache/yum/upda

2020-12-28 23:55:25 628

原创 Linux安装mysql

一、安装包准备 1．查看mysql是否安装，如果安装了，卸载mysql （1）查看 [root@hadoop102 桌面]# rpm -qa|grep mysql mysql-libs-5.1.73-7.el6.x86_64 （2）卸载 [root@hadoop102 桌面]# rpm -e --nodeps mysql-libs-5.1.73-7.el6.x86_64 2．解压mysql-libs.zip文件到当前目录 [root@hadoop102 software]# unzip

2020-10-10 18:14:44 134

原创 Hive安装部署

1．Hive安装及配置（1）把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下（2）解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面 [ren@hadoop102 software]$ tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/module/ （3）修改apache-hive-1.2.1-bin.tar.gz的名称为hive [ren@ha

2020-10-10 17:46:23 140

原创 Hive入门

1.1 什么是Hive Hive：由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序 1）Hive处理的数据存储在HDFS 2）Hive分析数据底层的实现是MapReduce 3）执行程序运行在Yarn上 1.2 Hive的优缺点 1.2.1 优点 1)操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手）。 2)避免了去写MapReduce

2020-10-03 12:30:45 234 1

如此生活丶的博客

原创解决idea控制台乱码问题