
大数据
秋名山庄李逍遥
这个作者很懒,什么都没留下…
展开
-
mapreduce 中setup()和cleanup()
hadoop中的MapReduce框架里已经预定义了相关的接口,其中如Mapper类下的方法setup()和cleanup()。setup(),此方法被MapReduce框架仅且执行一次,在执行Map任务前,进行相关变量或者资源的集中初始化工作。若是将资源初始化工作放在方法map()中,导致Mapper任务在解析每一行输入时都会进行资源初始化工作,导致重复,程序运行效率不高! cleanup(),此方法被MapReduce框架仅且执行一次,在执行完毕Map任务后,进行相关变量或资源的释放工作。若是将释转载 2021-02-24 10:33:50 · 452 阅读 · 0 评论 -
ImmutableBytesWritable
实现了WritableComparable接口public class ImmutableBytesWritableimplements WritableComparable<ImmutableBytesWritable>可用作key或value的节序列。基于BytesWritable,该类不可调整大小,并且不像BytesWritable那样区分序列大小和当前容量。因此它相对来说是“不变的”。创建此类的新实例时,不会复制byte[],而只是引用它。当我们进行序列化时,将访问备份.转载 2021-02-22 17:14:16 · 1496 阅读 · 0 评论 -
查看oozie工作流节点和job作业详细日志信息命令
查看oozie工作流详细信息命令oozie job -info 000****-2010888888-oozie-hado-W(oozie的ID)查看job工作详细日志信息yarn logs -applicationId application_*****_****(jodID)原创 2021-02-03 17:14:30 · 689 阅读 · 0 评论 -
hadoop之yarn界面
转载于https://blog.youkuaiyun.com/qq_32641659/article/details/879124521、hdfs的web界面介绍1.1、访问地址:http://ip:50070,默认是50070端口1.2tab页功能介绍overview:显示概要信息,关注度较高,主要关注如红色圈信息datanodes:显示所有datanode节点信息,关注度一般DatanodeVolume Failures:失败的数据节点卷,关注度低snapshot: 快照,...转载 2021-01-28 15:33:32 · 5008 阅读 · 1 评论 -
Myeclipse连接HDFS无法操作文件夹
今天遇到一个问题,myeclipse连接Hadoop之后,可以查看hdfs的文件,但是不能创建文件夹以及上传文件到hdfs,网上百度了很久,好多方法都没用分析之后我遇到的是权限问题,最后解决的方法是添加Hadoop用户的系统变量 HADOOP_USER_NAME=hadoop,最后解决问题!...原创 2021-01-27 18:29:52 · 136 阅读 · 0 评论 -
Hbase列存储理解
本文转自于https://blog.youkuaiyun.com/qq_42346966/article/details/103897778常见的NoSQL数据库常见分类:Key-Value- Redis|SSDBDocument- MongoDB|Elasticsearch|Solr列存储- HBase图像关系- Neo4j 等.和关系数据库不同,NoSQL不同种类产品之间不可相互替换. 行存储特点-RDBMS ID name password age sex ...转载 2021-01-26 14:54:43 · 297 阅读 · 0 评论 -
[sql table] TRUNCATE TABLE 语法
清空表语法:TRUNCATE [TABLE] tbl_name1介绍:TRUNCATE TABLE完全的清空一个表。这个操作需要DROP权限逻辑上讲,TRUNCATE TABLE 和 DELETE语句的删除所有行相似,或者DROP TABLE 和 CREATE TABLE语句相似。为了实现高性能,它越过了DML方法的删除数据,所以他不可以回滚,他不触发ON DELETE触发器,当InnoDB型的表有额外的外键关系时,此语句不能工作。尽管TRUNCATE TABLE与DELETE语句相转载 2021-01-21 14:38:44 · 2101 阅读 · 0 评论 -
insert overwrite 用法
insert overwrite的用法: INSERT OVERWRITE TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...) [IF NOT EXISTS]] \ select_statement1 FROM from_statement;如果查询出来的数据类型和插入表格对应的列数据类型不一致,将会进行转换,但是不能保证转换一定成功,比如如果查询出来的数据类型为int,插入表格对应的列类型为string,可.原创 2021-01-21 14:21:24 · 21897 阅读 · 0 评论 -
SQL LEFT JOIN 关键字
SQL LEFT JOIN 关键字LEFT JOIN 关键字从左表(table1)返回所有的行,即使右表(table2)中没有匹配。如果右表中没有匹配,则结果为 NULL。SQL LEFT JOIN 语法SELECTcolumn_name(s)FROMtable1LEFT JOINtable2ONtable1.column_name=table2.column_name;或:SELECTcolumn_name(s)FROMtable1LEFT OUTER JO...转载 2021-01-21 12:20:06 · 139 阅读 · 0 评论 -
sql中CDATA标签的用法
在学习Hadoop Ooziez中,sql语句会出现CDATA,这指的是不应由 XML 解析器进行解析的文本数据(Unparsed Character Data)。在 XML 元素中,"<" 和 "&" 是非法的。"<" 会产生错误,因为解析器会把该字符解释为新元素的开始。"&" 也会产生错误,因为解析器会把该字符解释为字符实体的开始。在xml中写sql语句时,遇到特殊字符时,如:< 等,建议使用<![CDATA[ sql 语句 ]]>标记,将.原创 2021-01-20 11:53:49 · 6466 阅读 · 1 评论 -
hive加载数据操作
https://blog.youkuaiyun.com/qq_33689414/article/details/80063704?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-2.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-2.control转载 2021-01-20 11:09:08 · 109 阅读 · 0 评论 -
工作流引擎Oozie:coordinator
项目组需要,暂时只能抽时间spring的东西,先研究Hadoop。本篇学习了Oozie中的coordinator1. 简介coordinator是workflow的定时提交器,基于时间条件与数据生成触发(based on time and data triggers)。简单点说,coordinator按所定义的时间周期进行轮询,若数据生成条件满足,则触发workflow任务;否则,则等待数据生成或跳过(调度策略由设置的超时时间决定)。2. 详解coordinator-app<转载 2021-01-14 15:17:03 · 469 阅读 · 0 评论 -
Kafka安装启动以及基本命令
最近刚进公司在学spark streaming 相关的知识,所以先把相关的flume、Kafka等学习下,下面给出在安装 启动过程中出现的问题以及解决方法。一、Kafka安装(1)apache官网可以下载zookeeper和Kafka,然后解压就可以(2)gedit ./bashrc 命令配置环境变量, 执行source ./bashrc 使文件生效二、启动Kafka执行语句$KAFKA_HOME/bin/kafka-server-start.sh config/server.pr原创 2020-08-05 17:18:54 · 729 阅读 · 0 评论 -
sqoop读取postgresql数据库表格导入到hdfs中
最近再学习spark streaming做实时计算这方面内容,过程中需要从后台数据库导出数据到hdfs中,经过调研发现需要使用sqoop进行操作,本次操作环境是Linux下。 首先确保环境安装了Hadoop和sqoop,安装只需要下载 ,解压 以及配置环境变量,这里不多说了,网上教程很多。 一、配置sqoop以及验证是否成功切换到配置文件下:cd $SQOOP_HOME/conf 创建配置环境文件: cp sqoop-env-template.sh sqoop-...原创 2020-08-05 16:53:40 · 1018 阅读 · 0 评论