自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 解决idea控制台乱码问题

解决idea控制台乱码问题

2022-08-28 13:12:18 453

原创 yarn指向了java

本地安装了java、hadoop和nodejs,并配置了环境变量,但是hadoop的bin目录下存在yarn命令,所以使用nodejs的yarn命令启动项目会出现找不到类,此时键入yarn -version也会显示java的版本。 解决办法是使用yarnpkg,它等同于yarn。 ...

2021-12-04 11:03:44 318

原创 pg数据库-获取每组数据中时间最小的一条数据

SELECT DISTINCT ON (customer) id, customer, total FROM purchases ORDER BY customer, total DESC, id;

2021-08-02 18:33:07 1217 1

原创 查询删除的数据

select * from ques_t_questionnaire as of timestamp to_timestamp(‘2021-06-28 10:50:00’,‘yyyy-mm-dd hh24:mi:ss’)

2021-06-28 11:11:33 157

原创 Spark:序列化

1、为什么要序列化 因为在Spark程序中,算子相关的操作在Excutor上执行,算子之外的代码在Driver端执行,在执行有些算子的时候,需要只用到Driver里面定义的数据,这就涉及到了跨进程或着跨节点之间的通讯,所以要求传递给Excutor中的数组所属的类型必须实现Serializable接口 2、如何判断是否实现了序列化接口 在作业job提交之前,其中有一行代码 : val cleanF = sc.clean(f),用于进行闭包检查,之所以叫闭包检查,是因为在当前函数的内部访问了外部的函数变量,属

2021-03-24 22:43:13 340

原创 hadoop集群脚本

1、集群分发脚本 #!/bin/bash #验证参数 if(($#!=1)) then echo 请输入要分发的单个文件! exit; fi #获取分发文件的绝对路径 dirpath=$(cd `dirname $1`; pwd -P) filename=`basename $1` echo 要分发的文件的路径是:$dirpath/$filename #获取当前的用户名 user=$(whoami) #循环执行rsync分发文件到集群的每条机器 for((i=101;i

2021-02-13 07:52:07 139

原创 Hadoop运行环境搭建

分布式集群搭建步骤分析: 1)安装JDK 2)配置环境变量 3)安装Hadoop 4)配置环境变量 5)配置集群 6)单点启动 7)配置ssh 8)群起并测试集群 1、安装JDK 2、hadoop安装 1)Hadoop下载地址: https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/ 2)环境变量: ##HADOOP_HOME export HADOOP_HOME=/opt/module/hadoop-2.7.2 export PATH=$P

2021-02-10 00:52:29 246

原创 There is insufficient memory for the Java Runtime Environment to continue

【解决问题】 修改/etc/security/limits.d/90-nproc.config 此文件内容: # Default limit for number of user's processes to prevent # accidental fork bombs. # See rhbz #432903 for reasoning. * soft nproc 1024 root soft nproc unlimited ...

2021-02-05 23:01:09 465

转载 yum命令,出现Error: Cannot find a valid baseurl for repo: base报错

echo "https://vault.centos.org/6.8/os/x86_64/" > /var/cache/yum/base/mirrorlist.txt echo "https://vault.centos.org/6.8/extras/x86_64/" > /var/cache/yum/extras/mirrorlist.txt echo "https://vault.centos.org/6.8/updates/x86_64/" > /var/cache/yum/upda

2020-12-28 23:55:25 628

原创 Linux安装mysql

一、安装包准备 1.查看mysql是否安装,如果安装了,卸载mysql (1)查看 [root@hadoop102 桌面]# rpm -qa|grep mysql mysql-libs-5.1.73-7.el6.x86_64 (2)卸载 [root@hadoop102 桌面]# rpm -e --nodeps mysql-libs-5.1.73-7.el6.x86_64 2.解压mysql-libs.zip文件到当前目录 [root@hadoop102 software]# unzip

2020-10-10 18:14:44 134

原创 Hive安装部署

1.Hive安装及配置 (1)把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下 (2)解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面 [ren@hadoop102 software]$ tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/module/ (3)修改apache-hive-1.2.1-bin.tar.gz的名称为hive [ren@ha

2020-10-10 17:46:23 140

原创 Hive入门

1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 1)Hive处理的数据存储在HDFS 2)Hive分析数据底层的实现是MapReduce 3)执行程序运行在Yarn上 1.2 Hive的优缺点 1.2.1 优点 1)操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。 2)避免了去写MapReduce

2020-10-03 12:30:45 234 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除