
大数据cdh平台
奋斗的小蚁
求知若饥,虚心若愚
展开
-
《hive编程指南》阅读随笔06
数组索引是基于0的,这个和java是一样的。函数数学函数聚合函数原创 2019-07-08 09:42:55 · 128 阅读 · 0 评论 -
sublime打开txt乱码问题修复
Package Control是Sublime Text3负责插件管理的插件,所以安装Package Control插件时安装其他插件的前提,而Package Control安装方法分为手动安装和自动安装两种,下面是自动安装方法:Package Control的安装详情在官网上边有说明,首先百度搜索Package Control官网,我们便会出现如下的界面。点击右侧绿色的Install Now...原创 2019-07-13 21:17:38 · 498 阅读 · 0 评论 -
《hive编程指南》阅读随笔03
原创 2019-07-04 16:03:18 · 121 阅读 · 0 评论 -
airflow安装实操记录
1.1 基础安装1.1.1 默认自带python2环境,自行安装pipsudo yum -y install python-pip使用bigdata用户安装,需要加sudo,否则会出现Permission denied1.1.2 进行pip的更新,否则后续很多安装会报错 sudo pip install --upgrade pip sudo pip install --upgrade...原创 2019-06-29 11:25:42 · 447 阅读 · 0 评论 -
airflow分享
组成部分从一个使用者的角度来看,调度工作都有以下功能:系统配置($AIRFLOW_HOME/airflow.cfg)作业管理($AIRFLOW_HOME/dags/xxxx.py)运行监控(webserver)告警(邮件或短信)日志查看(webserver 或 $AIRFLOW_HOME/logs/)跑批耗时分析(webserver)后台调度服务(scheduler)除了短信需...原创 2019-06-29 11:30:47 · 2286 阅读 · 0 评论 -
sqoop+crontab(mysql表定期导入到hive)
执行命令sqoop job --create todbincrementjob -- import \--connect jdbc:mysql://xx.xx.xx.xx:3306/iepdb \--username xxxxx_iep \--password-file /user/train/password.file \ --target-dir /tmp/mysqldb/hs_xx...原创 2019-06-29 11:38:21 · 533 阅读 · 0 评论 -
HDFS读写文件流程
HDFS写流程: 写的详细流程: ① 客户端向HDFS写数据,首先跟namenode通信以确认可以写文件(namenode检查目标文件是否存在,父目录是否存在),确认可以上传,返回给客户端client ② client会先对文件进行切分,默认一个block块是128M,比如说,文件有300M,就会被切分成3块,两个128M,一个44M。然后client会向namenode请求上传...原创 2019-06-29 11:55:27 · 1072 阅读 · 0 评论 -
《hive编程指南》阅读随笔04
分区分层存储alter table log_message add partition(month=1) location ‘hdfs://master-server/data/log_messages/month=6’describe extended log_messages;describe extended log_messages pa...原创 2019-07-04 18:10:12 · 129 阅读 · 0 评论 -
《hive编程指南》阅读随笔15
文件格式、记录格式stored as textfile/sequencefile/文件格式行分隔符字段分隔符记录格式:SerDeRegexSerDe处理标准格式的apache web日志CSVSerDe / TSVSerDe 处理CSV/TSV文件XPath(XML路径语言)JSONSerDeAvro Hive SerDe...原创 2019-07-04 19:19:53 · 141 阅读 · 0 评论 -
《hive编程指南》阅读随笔16
hive cli会在本地创建.hivehistory这样的文件,以及会在/tmp目录和hadoop.tmp.dir目录下创建一些条目。hiveserver2成了hadoopjob开启执行的地方原创 2019-07-04 20:16:01 · 182 阅读 · 0 评论 -
《hive编程指南》阅读随笔05
hive会根据select的最后两列来确定分区字段country, state的值原创 2019-07-05 19:43:52 · 145 阅读 · 0 评论 -
cloudera Java API pom.xml
https://www.cloudera.com/documentation/enterprise/latest/topics/install_software_cm_wizard.html< project > < repositories > < repository > < id > cdh.repo </...原创 2019-07-16 20:32:32 · 312 阅读 · 0 评论 -
《hive编程指南》阅读随笔02
一次使用命令hive -ehive -S -ehive -S -e “select * from test_table” > /tmp/a.txthive会将输出写到标准输出中。上面的shell命令将输出重定向到本地文件系统,而不是hdfshive CLITab制表符 自动补全...原创 2019-07-04 14:52:36 · 174 阅读 · 0 评论 -
《hive编程指南》阅读随笔13
原创 2019-07-09 20:58:23 · 186 阅读 · 0 评论 -
《hive编程指南》阅读随笔01
CLI:hive命令行界面thrift服务:提供了可远程访问其他进程的服务,也提供了JDBC/ODBC访问hive的功能。JDBC/ODBC:访问hive,都是基于thrift服务来实现的。HWI:hive网页界面,提供了远程访问hive的服务metastore:元数据存储,通常替换为mysqlhadoop dfs 已经不推荐使用,推荐hdfs dfs警告:不推荐使用Hive...原创 2019-07-04 12:34:48 · 147 阅读 · 0 评论 -
大数据组件的退出命令
spark-shell 退出 :quithive 退出 quit; exit;beeline 退出 !exithbase 退出 exithadoop job -kill jobid原创 2019-07-02 19:00:37 · 394 阅读 · 0 评论 -
Python3安装
必须root下执行,bigdata下sudo执行make && make install 时某些包权限受限,会报错下载安装包:wget https://www.python.org/ftp/python/3.6.1/Python-3.6.1.tgz解压:tar -zxvf Python-3.6.1.tgz建立一个空文件夹,用于存放python3程序:mkdir /u...原创 2019-07-02 20:04:18 · 242 阅读 · 0 评论 -
org.apache.hadoop.security.AccessControlException 解决办法
异常1:上传文件到hdfs,找不到文件异常2:spark-shell启动报错org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x异常3:远程提交任务给Hadoop 可...原创 2019-07-02 20:15:12 · 10953 阅读 · 2 评论 -
执行sqoop脚本提示Permission denied
执行sqoop import --connect jdbc:mysql://test.public.db.gdapi.net/etnadb --username etna --password C4rWqW9vvgMFh9om --table etna_function --target-dir /tmp/test报错:解决办法:sudo -u hdfs sqoop import --...原创 2019-07-08 18:33:51 · 1083 阅读 · 0 评论 -
To enable Oozie web console install the Ext JS library解决办法
新集群安装后,oozie还不能打开:解决办法:下载ext-2.2.zip到本机,上传到Oozie Server上对应目录下:whereis ooziecd /var/lib/oozie/sudo yum install unzipsudo unzip ext-2.2.zipchown oozie:oozie -R ext-2.2再次访问web,正常了。...原创 2019-07-08 20:06:25 · 389 阅读 · 0 评论 -
执行本地文件加载在hive中的py脚本及依赖安装记录
脚本demo脚本功能:把本地文件加载在hive中#!/usr/bin/env python # encoding: utf-8 """@version: v1.0@author: chey@contact: ~@software: PyCharm@file: test.py.py@time: 2019-07-03 15:56""""""创建分区表:CREATE TA...原创 2019-07-03 17:13:55 · 451 阅读 · 0 评论 -
《hive编程指南》阅读随笔07
原创 2019-07-09 11:53:13 · 156 阅读 · 0 评论 -
《hive编程指南》阅读随笔08
原创 2019-07-09 13:53:26 · 130 阅读 · 0 评论 -
《hive编程指南》阅读随笔09
原创 2019-07-09 14:40:17 · 121 阅读 · 0 评论 -
《hive编程指南》阅读随笔10
原创 2019-07-09 17:24:16 · 309 阅读 · 0 评论 -
《hive编程指南》阅读随笔11
原创 2019-07-09 18:12:01 · 164 阅读 · 0 评论 -
《hive编程指南》阅读随笔12
原创 2019-07-09 18:31:51 · 172 阅读 · 0 评论