
分布式系统
文章平均质量分 67
lepton126
有理想有底线
展开
-
centos6.7和hadoop2.7.1环境下hbase1.2.4的安装
一、先介绍下环境,一共七部机器,均安装CentOS6.7 64位系统,hadoop版本为2.7.1,必须要注意和hbase的版本匹配,所以使用1.2.4,1、2号机器为namenode的主备用机[hadoop@hadoop-node1 ~]$ jps20853 DFSZKFailoverController26365 Jps20538 NameNode[hadoop@hadoo原创 2017-03-04 10:51:13 · 947 阅读 · 0 评论 -
验证hive load装载数据的overwrite参数
操作过程hive> select count(*) from test;2018-05-25 11:08:40,651 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 61.19 secMapReduce Total cumulative CPU time: 1 minutes 1 seconds 190 msecEnded Job = ...原创 2018-05-25 14:45:55 · 7489 阅读 · 0 评论 -
hive之HQL 排序
hive之HQL 排序查询员工信息:员工号 姓名 月薪 按月薪排序select empno,ename,sal from emp order by sal; 若在尾部加上desc,按降序排列排序操作要被转换成mapreduce作业,order by 后面可跟:列、表达式、别名或序号。select empno,ename,sal,sal*12 from emp order by sal*12; 按年...原创 2018-05-15 17:33:12 · 595 阅读 · 0 评论 -
Hive 之 子查询
Hive中的子查询 hive只支持 from和where子句中的子查询https://cwiki.apache.org/confluence/display/Hive/LanguageManual+SubQueries查询名称为销售和财务的两个部门的员工姓名select e.ename from emp e where e.deptno in (select d.deptno from detp ...原创 2018-05-23 09:37:35 · 2774 阅读 · 0 评论 -
hive load数据后,数据被搬移,问题解决
现象:1、我们先上传一个文件$]hdfs dfs -put testdata.txt /data/2、hive 建表hive>create external table if not exists data.testtable like dat.testtableori;3、load数据hive>load data inpath '/data/' into table testt...原创 2018-05-29 10:28:58 · 3435 阅读 · 0 评论 -
ES学习笔记
概要1、Elasticsearch对复杂分布式机制的透明隐藏特性2、Elasticsearch的垂直扩容与水平扩容3、增减或减少节点时的数据rebalance4、master节点5、节点对等的分布式架构---------------------------------------------------------------------------------------------------...原创 2018-07-10 08:31:21 · 674 阅读 · 0 评论 -
not enough master nodes discovered during pinging (found [[]], but needed [-1]), pinging again 问题解决
not enough master nodes discovered during pinging (found [[]], but needed [-1]), pinging againmaster节点防火墙没有关闭原创 2018-07-16 16:33:11 · 7954 阅读 · 0 评论 -
elasticsearch6 安装报错“seccomp unavailable” 解决
在centos6.7 mini 环境下安装 elasticsearch6 ,报错java.lang.UnsupportedOperationException: seccomp unavailable: CONFIG_SECCOMP not compiled into kernel, CONFIG_SECCOMP and CONFIG_SECCOMP_FILTER are needed ...原创 2018-07-16 07:53:59 · 4115 阅读 · 0 评论 -
es 安装错误汇总
blog.youkuaiyun.com/feifantiyan/article/details/54614614root用户编辑vi /etc/sysctl.confvm.max_map_count=2621441vi /etc/security/limits.confadmin hard nofile 65536 admin soft nofile 65536 admin soft memlock ...转载 2018-07-16 09:49:56 · 2676 阅读 · 0 评论 -
利用python elasticsearch模块将json数据导入es
系统为centos6.9 mini,es集群为一个三节点的测试集群,一个主节点,二个数据节点,主节点的ip 为 192.168.104.711、安装setuptools,安装 pip cd /opt wget https://bootstrap.pypa.io/ez_setup.py python ez_setup.py cd /opt wget "ht...原创 2018-08-02 15:59:11 · 3358 阅读 · 2 评论 -
使用hadoop-streaming 过滤数据
使用python 和hadoop-streaming过滤数据1、测试数据如下$cat test.txtngry-benz-9d02e5.netlify.com 35.197.55.186*.heliumelephant.com heliumelephant.com0-0-2.11.edge.mrn.m.oml.ru 185.32.56.570-0-23-vln.fw1...原创 2018-08-27 10:35:06 · 768 阅读 · 0 评论 -
主从namenode都处于standby状态
一直工作正常的集群,由于机房电源故障,造成部分datanode硬盘故障,一共有几十个blocks丢失,重新运行集群后,主从namenode都处于standby的状态,以下是处理的主要过程。在开始维护之前,可先运行 hdfs haadmin -getServiceState nn1 或是 hdfs haadmin -getServiceState nn2 ,来用命令行检查当前状态,这里nn1...原创 2018-10-09 09:57:55 · 1533 阅读 · 0 评论 -
使用pyspark 分析日志
Apache Spark is the smartphone of BigData 后台是三节点spark集群,python的版本是3.5.4,spark版本是spark-2.3.0-bin-hadoop2.7,在windows10系统下运行需要处理的数据部分内容如下所列,字段以TAB键分隔121508281810000000 http://www.yhd.com/?uni...原创 2019-01-22 15:33:47 · 2062 阅读 · 0 评论 -
fs.default.name和fs.defaultFS
在hadoop的配置文件 core-site.xml中,需要设置fs.default.name或fs.defaultFS ,具体应该使用哪一个,会造什么样的错误,需要在实际操作中去验证。官网有下面这段描述We need to have only one of the two (fs.default.name or fs.defaultFS, and the former is d...原创 2019-03-08 09:49:38 · 14534 阅读 · 0 评论 -
hadoop 配置文件中直接使用 ip 地址
在hadoop系统中,namenode和datanode在进行交互时,缺省是要进行host解析查询的,在当前环境中,所有配置文件中都直接使用了ip地址,导致系统报错FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool <registering>...原创 2019-03-08 10:41:52 · 4036 阅读 · 1 评论 -
hive 之多表查询
hive 多表查询,转化为一个mapreduce的作业hive>desc dept;deptno doubledname stringloc stringhive>desc emp;empno doubleename stringjob stringmgr doublehiredate stringsal doublecomm doubledeptno d...原创 2018-05-21 15:05:02 · 10719 阅读 · 0 评论 -
hive之HQL 使用where过滤
查询10号部门的员工select * from emp where deptno=10查询名叫king 的员工select * from emp where name='king'在hive的HQL语句中是严格区分大小写的查询部号是10,薪水小于2000的员工select * from emp where deptno=10 and sal<20;分析执行计划explain select *...原创 2018-05-14 08:18:25 · 1817 阅读 · 0 评论 -
hive 之 Fetch Task功能
Fetch Task功能一个简单的查询语句,是指一个没有函数、排序等功能的语句,当开启一个Fetch Task功能,就执行一个简单的查询语句不会生成MapRreduce作业,而是直接使用FetchTask,从hdfs文件系统中进行查询输出数据,从而提高效率。配置方式1、在hive提示符set hive.fetch.task.conversion=more;2、启动hive时,加入参数 ,形如 hi...原创 2018-05-11 14:56:39 · 2202 阅读 · 0 评论 -
yarn框架ha状态下8088端口故障处理
ERROR org.apache.hadoop.yarn.server.resourcemanager.ResourceManager: RECEIVED SIGNAL 15: SIGTERMERROR org.apache.hadoop.security.token.delegation.AbstractDelegationTokenSecretManager: ExpiredTokenRe原创 2017-05-12 16:11:03 · 3063 阅读 · 0 评论 -
新增datanode
在不中断hadoop集群运行的情况下在,完成新加datanode节点的工作1、检查namenode和datanode的/etc/hosts,确保一致2、检查namenode设备上的hadoop安装目录下的/etc/hadoop/slaves,确认将新加节点已经加入到文件中3、实现namenode到新增datanode节点的ssh无密码登录4、下载与namenode同版本的jdk和h原创 2017-06-07 15:06:21 · 695 阅读 · 0 评论 -
Exception while invoking getStats of class ClientNamenodeProtocolTranslatorPB over 故障分析
在执行 hdfs dfsadmin -report 命令时,出现故障Exception while invoking getStats of class ClientNamenodeProtocolTranslatorPB over ,在查阅log记录时发现java.net.SocketTimeoutException: Call From clusternode***to clusterno原创 2017-07-21 10:43:55 · 9779 阅读 · 0 评论 -
mapreduce 10020端口错误
报错信息如下:FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask. java.net.ConnectException: Call From hostname1 to hostname2:10020 failed on connection exception: jav原创 2017-07-27 16:17:21 · 4751 阅读 · 0 评论 -
Hadoop、ZooKeeper、Hive、HBase 七节点分布式集群搭建
Hadoop、ZooKeeper、Hive、HBase 七节点分布式集群搭建 一、系统版本及相关软件:CentOS6.7 64位 2.6.32-573.el6.x86_64,选择安装时为mini选项,不安装图形界面hadoop-2.7.1.tar.gzjdk-7u79-linux-x64.tar.gzzookeeper-3.4.9.tar.gzapache-hive-2原创 2017-03-08 09:34:15 · 7927 阅读 · 2 评论 -
elk 学习笔记
学习笔记,零散,主要是操作过程elasticsearch logstash kafka kibana1、73,74,75,75scp clusteruser@192.168.104.73:/home/clusteruser/opt/jdk-8u151-linux-x64.tar.gz /home/clusteruser/opt$ pwd/home/clusteruser/opt tar -zxvf...原创 2018-03-30 10:21:27 · 502 阅读 · 0 评论 -
hive表之外部表
hive之外部表1、指向已经在HDFS中存在的数据,在外部表中也可创建partition2、外部表和内部表在元数据的组织上相同的,元数据可以保存在MYSQL数据库中举例如下$ hdfs dfs -put stduent01,stduent02,student03 /inputhive>create external table external_student(sid int,sname s...原创 2018-04-23 09:32:10 · 808 阅读 · 0 评论 -
hive表之桶表
hive表之桶表桶表是对数据进行哈希取值后,对桶数取余,根据余数放到不同的文件中进行存储,比如可以针对表中某一列进行哈希,这样可以降低系统的热块,提高查询速度举例 hive>create table bucket_table(sid int,sname string,age int) cluster by(sname) into 5 buckets; ...原创 2018-04-23 09:41:26 · 328 阅读 · 0 评论 -
hive表之视图
hive表之视图1、视图是一个虚表,一个逻辑概念,可以跨越多张表。表是物理概念,数据放在表中,视图是虚表,操作视图和操作表是一样的,所谓虚,是指视图下不存数据。2、视图是建立在已有表的基础上,视图赖以建立的这些表称为基表3、视图可以简化复杂的查询create view 视图表名 as select 基表1.字段1,基表1.字段2,基表2.字段1 ...... from 库名1.表名 库名2.表名 ...原创 2018-04-23 11:15:35 · 13303 阅读 · 0 评论 -
hive-hwi安装
1、工作环境 系统是centos7,jdk是jdk-7u79,hadoop是2.7.1,hive是2.1.1,在已经正常工作的hive环境中,增加web界面,达到通过web界面执行sql查询语句的目的2、命令行下执行hive 的两种方式./hive 或 hive --servcie cli3、执行系统命令在hive环境,若在执行系统命令,在命令前加上!,例如hive>!hdfs dfs -l...原创 2018-04-19 18:43:41 · 666 阅读 · 0 评论 -
hive 复杂数据类型和时间数据类型简介
一、hive 复杂数据类型建表举例1、使用数组的情况hive>create table student(sid int,sname string,grade array<float>);记录内容 {1,'alice',[80,90,90]}2、使用map的情况hive>create table student1(sid int,sname string,grade map&...原创 2018-04-20 09:06:30 · 10797 阅读 · 0 评论 -
hive之内部表
hive 内部表 hive的表与数据库中的表的概念是相似的,每一个表在HIVE中都有一个相对应的目录,该目录是存储数据的路径,所有表数据(不包括外部表)都保存在这个目录中,数据以文件的形式保存在hdfs文件系统上,表的元数据保存在元数据库中,本例中为mysql,删除内部表时,元数据和数据都会被删除。创建一个内部表1、表保存hdfs上的/user/hive/warehouse这个缺省目录hiv...原创 2018-04-20 16:02:44 · 622 阅读 · 0 评论 -
hive之分区表
hive表之分区表1、partition是数据库的partition列的密集索引2、Hive表中一个partition对应于表名目录的一个子目录,所有的partition数据都存储在对应的子目录中举例hive>select * from sample_date;1 Tom M 69 68 902 Marry F 90 89 783 Jerry M 69 93 70进行一次查询,需要进行全表扫...原创 2018-04-20 16:03:42 · 430 阅读 · 0 评论 -
hive 之HQL内嵌函数
Hive的函数内置函数自定义函数,java编写内置函数分类1、聚合函数和表生成函数2、内置函数 数学函数 round 四舍五入 select round(123.4567,3) 123.457 3表示小数点后3位,若是0,则表示个位,若是-1,则表示十位 ceil 向上取整 hive> select ceil(123.4); OK 124 Time tak...原创 2018-05-17 17:58:59 · 1069 阅读 · 0 评论 -
hdfs的空间容量
在安装hadoop完成后,发现hdfs文件系统的空间容量极小,平均下来每个数据节点只提供了50G大小的容量。操作系统环境是centos7 mini ,硬盘分区化时缺省是给根目录分配了50G ,而将绝大多数的空间都分配给了 home目录,hdfs文件系统的配置文件hdfs-site.xml中的dfs.namenode.name.dir和 dfs.datanode.data.dir...原创 2019-03-08 11:00:02 · 2384 阅读 · 0 评论