- 博客(12)
- 收藏
- 关注
原创 yarn指向了java
本地安装了java、hadoop和nodejs,并配置了环境变量,但是hadoop的bin目录下存在yarn命令,所以使用nodejs的yarn命令启动项目会出现找不到类,此时键入yarn -version也会显示java的版本。解决办法是使用yarnpkg,它等同于yarn。...
2021-12-04 11:03:44
261
原创 pg数据库-获取每组数据中时间最小的一条数据
SELECT DISTINCT ON (customer)id, customer, totalFROM purchasesORDER BY customer, total DESC, id;
2021-08-02 18:33:07
1145
1
原创 查询删除的数据
select * from ques_t_questionnaire as of timestamp to_timestamp(‘2021-06-28 10:50:00’,‘yyyy-mm-dd hh24:mi:ss’)
2021-06-28 11:11:33
126
原创 Spark:序列化
1、为什么要序列化因为在Spark程序中,算子相关的操作在Excutor上执行,算子之外的代码在Driver端执行,在执行有些算子的时候,需要只用到Driver里面定义的数据,这就涉及到了跨进程或着跨节点之间的通讯,所以要求传递给Excutor中的数组所属的类型必须实现Serializable接口2、如何判断是否实现了序列化接口在作业job提交之前,其中有一行代码 :val cleanF = sc.clean(f),用于进行闭包检查,之所以叫闭包检查,是因为在当前函数的内部访问了外部的函数变量,属
2021-03-24 22:43:13
309
原创 hadoop集群脚本
1、集群分发脚本#!/bin/bash#验证参数if(($#!=1))then echo 请输入要分发的单个文件! exit;fi#获取分发文件的绝对路径dirpath=$(cd `dirname $1`; pwd -P)filename=`basename $1`echo 要分发的文件的路径是:$dirpath/$filename#获取当前的用户名user=$(whoami)#循环执行rsync分发文件到集群的每条机器for((i=101;i
2021-02-13 07:52:07
108
原创 Hadoop运行环境搭建
分布式集群搭建步骤分析:1)安装JDK2)配置环境变量3)安装Hadoop4)配置环境变量5)配置集群6)单点启动7)配置ssh8)群起并测试集群1、安装JDK2、hadoop安装1)Hadoop下载地址:https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/2)环境变量:##HADOOP_HOMEexport HADOOP_HOME=/opt/module/hadoop-2.7.2export PATH=$P
2021-02-10 00:52:29
217
原创 There is insufficient memory for the Java Runtime Environment to continue
【解决问题】修改/etc/security/limits.d/90-nproc.config此文件内容:# Default limit for number of user's processes to prevent# accidental fork bombs.# See rhbz #432903 for reasoning.* soft nproc 1024root soft nproc unlimited...
2021-02-05 23:01:09
409
转载 yum命令,出现Error: Cannot find a valid baseurl for repo: base报错
echo "https://vault.centos.org/6.8/os/x86_64/" > /var/cache/yum/base/mirrorlist.txtecho "https://vault.centos.org/6.8/extras/x86_64/" > /var/cache/yum/extras/mirrorlist.txtecho "https://vault.centos.org/6.8/updates/x86_64/" > /var/cache/yum/upda
2020-12-28 23:55:25
598
原创 Linux安装mysql
一、安装包准备1.查看mysql是否安装,如果安装了,卸载mysql(1)查看[root@hadoop102 桌面]# rpm -qa|grep mysqlmysql-libs-5.1.73-7.el6.x86_64(2)卸载[root@hadoop102 桌面]# rpm -e --nodeps mysql-libs-5.1.73-7.el6.x86_642.解压mysql-libs.zip文件到当前目录[root@hadoop102 software]# unzip
2020-10-10 18:14:44
115
原创 Hive安装部署
1.Hive安装及配置(1)把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下(2)解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面[ren@hadoop102 software]$ tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/module/(3)修改apache-hive-1.2.1-bin.tar.gz的名称为hive[ren@ha
2020-10-10 17:46:23
117
原创 Hive入门
1.1 什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Yarn上1.2 Hive的优缺点1.2.1 优点1)操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。2)避免了去写MapReduce
2020-10-03 12:30:45
200
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人