
bigdata
sonia_liss
这个作者很懒,什么都没留下…
展开
-
Hive sql 常用的一些方法
1、插入数据insert into 附加;insert overwrite 清空原数据,再插入,最终表中只有插入的数据。2、字符串截取函数split正常使用split('a,b,c,d',',')得到的结果:["a","b","c","d"]当遇到特殊字符"." 点split('192.168.0.1','.')得到的结果:[]正确的写法:split('192.168.0.1','\\.')得到的结果:["192","168","0","1"]当split包含在 "原创 2020-07-05 21:42:43 · 266 阅读 · 0 评论 -
ES6.x版本单机三节点配置discovery.zen.ping.unicast.hosts 错误
问题在同一个机子利用不同端口搭建3个ES节点单节点正常运行集群间无法联通,找不到主节点表现cluster_uuid 一直没有注册成功curl "0.0.0.0:29200"{ "name" : "es-01", "cluster_name" : "es-test01n", "cluster_uuid" : "_nan_", "version" : { "number" : "6.4.2", "build_flavor" : "default", "bu原创 2020-05-28 11:04:41 · 12018 阅读 · 0 评论 -
利用docker-compose搭建ES集群6.4/7.2、Kibana
安装docker-compose确定需要安装的版本拉取docker镜像编写docker-compose.yml编写es.yml编写kibana.yml启动、测试!!!原创 2020-05-20 16:18:00 · 884 阅读 · 0 评论 -
docker搭建ES集群及Kibana教程
加载docker es 镜像docker pull elasticsearch:6.4.2 配置ES配置文件地址: /home/es/config/ es1.yml es2.yml es3.yml在本地配置elasticsearch.yml文件,设置es集群名称、ip等如下:ES01:cluster.name: elasticsearch-clusternode.name: es-node1network.bind_host: 0.0.0.0network.publish.原创 2020-05-09 16:04:16 · 1589 阅读 · 2 评论 -
ES分片未分配问题总结
定位原因方法一:使用ES的cat API可以分析出未分配的分片信息及未分配的原因curl -XGETlocalhost:9200/_cat/shards?h=index,shard,prirep,state,unassigned.reason| grepUNASSIGNED命令返回信息包括索引名称、分片编号、是主分片还是副本分片、未分配原因等方法二:使用GET /_cluster/all...原创 2020-04-26 17:40:01 · 5009 阅读 · 0 评论 -
storm2.1.0搭建教程
一、确定安装storm版本,这里默认安装storm2.1.0二、搭建storm集群步骤开始(Here's a summary of the steps for setting up a Storm cluster:)安装一个Zookeeper集群(一般3台足够)(Set up a Zookeeper cluster)(问题:单机需要装Zookeeper么)Zookeeper需要加入监...原创 2019-12-19 16:02:41 · 1778 阅读 · 1 评论 -
hivesql一些常用的简便方法
命令:(1)vi hive.sqlsql = “select * from table;”hive -f hive.sql(2)遍历一个表多次插入其他的表from table1insert into table2 where q1=v1insert into table2 where q2=v2(3)遍历hive表格并写入文件hive -e “select * from tabl...原创 2019-11-05 14:30:19 · 144 阅读 · 0 评论 -
SparkSql的元数据
一、概述SparkSQL的元数据状态有两种:1、in_memory,用完了元数据也就丢了2、hive,通过hive去保存的,也就是说,hive的元数据存在哪儿,它的元数据也就存在哪儿。换句话说,SparkSQL的数据仓库建立在Hive之上实现的。我们要用SparkSQL去构建数据仓库的时候,必须依赖于Hive。二、Spark-SQL脚本如果直接运行bin/spark-sql命令。会导致...转载 2019-07-12 16:27:40 · 950 阅读 · 0 评论 -
Elasticsearch VS Solr
ES是一个实时的分布式搜索和分析引擎。Elasticsearch是一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎,可以说Lucene是当今最先进,最高效的全功能开源搜索引擎框架。Elasticsearch使用Lucene作为内部引擎,但是在使用它做全文搜索时,只需要使用统一开发好的API即可,而不需要了解其背后复杂的Lucene的运行原理。当然Elasticsearc...转载 2019-07-24 10:27:19 · 136 阅读 · 0 评论 -
CDH中为什么用jps看不到namenode、datanode
Question: 程序在正常运行,用ps -ef | grep namenode的命令可以查看到相关进程信息,但用jps命令却查不到 Answer:Java程序启动后,会在/tmp目录下生成一个名为hsperfdata_用户名的文件夹,这个文件夹下会有一些以java进程PID命令的文件;我们在用jps命令查询进程信息,实际上是将这个文件夹下的文件列出来;因此当这个文件夹为空(可能...原创 2019-07-22 17:25:08 · 914 阅读 · 0 评论 -
集群间的免密登录设置
例子Example:Linux1Linux2Linux3步骤在Linux1上:1、cd .ssh进入rsa公钥私钥文件存放的目录[user@t01 ~]$ cd .ssh[user@t01 .ssh]$ lsauthorized_keys id_rsa id_rsa.pub known_hosts若没有文件,则输入ssh-keygen -t rsa#一直回车到完成...原创 2019-07-23 17:31:38 · 494 阅读 · 0 评论 -
HDFS与Hive、HBase之间到底是什么关系
概念HDFSThe Hadoop Distribute File System 分布式文件系统 是一个被设计在运行商用硬件的一个分布式文件系统。它与现有的分布式文件系统有许多相似之处,但是与其他分布式文件系统区别是显著的。HDFS具有高度容错性,设计用于部署在低成本硬件上。HDFS提供对应用程序数据的高吞吐量访问,适合具有大数据集的应用程序。HDFS放宽了一些POSIX要求,以实现对文件系统的...原创 2019-07-23 17:13:15 · 7281 阅读 · 1 评论 -
Hive入门知识及常用指令
基础命令show databases; # 查看某个数据库use 数据库; # 进入某个数据库show tables; # 展示所有表desc 表名; # 显示表结构show partitions 表名; # 显示表名的分区show create table_name; # 显示创建表的结构建表语句#内部表use xxdb; creat...转载 2019-07-09 17:39:13 · 210 阅读 · 0 评论 -
Spark如何提交job
spark提交job方式standalone方式client 模式cluster模式yarn方式client模式完整体提交job语句:spark-submit --master yarn --deploy-mode client --executor-memory 2G --executor-cores 1 --class org.apache.spark.examp...原创 2019-08-22 13:46:28 · 563 阅读 · 0 评论 -
spark问题之java.net.NoRouteToHostException:没有找到主机的路由
起因:1、按照步骤搭建完成spark集群;2、在所有的机器上jps,查看任务进程,都存在;3、在任意一台上提交job测试;现象:出现报错:ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Call to master/192.168.1.123:9000 failed on local...原创 2019-07-10 15:08:15 · 2094 阅读 · 0 评论 -
Hadoop2.7.3源码编译教程
参考链接:hadoop 2.7.3 源码编译教程一、工具准备最靠谱的是hadoop说明文档里要求具备的那些工具。1、Hadoop2.7.3下载安装哪个版本的hadoop,需要进入各个源码查看requirements进入hadoop官网,点击source下载hadoop-2.7.3-src.tar.gz解压:tar -zxvf hadoop-2.7.3-src.tar.gz进入had...转载 2019-07-10 15:45:46 · 457 阅读 · 0 评论 -
CentOS7安装jdk教程
引言Oracle JDK和OpenJDK的简单介绍Oracle JDK是基于Java标准版规范实现的,以二进制产品的形式发布。它支持多种操作系统,如Windows,Linux,Solaris,MacOS等。它支持不同的平台,如Intel32位和64位架构,ARM架构和SPARC。它完全基于Java编程语言。之后,该许可证宣布将根据GPL(通用公共许可证)许可证发布。Oracle JDK包含许...原创 2019-07-10 17:54:06 · 2193 阅读 · 0 评论 -
Spark到底比MapReduce快在哪?
转载:spark为什么比hadoop的mr要快?为什么转这篇文章,是看到一个问题:为什么spark不在内存跑,也可以比mr快,对于刚入门的新手来说,或者大家比较熟知的,都知道spark是基于内存计算的,但是怎么会有这样的问题出现呢?因此有了以下的search,供大家参考。----------------------分割线----------------------------1.前言Spa...转载 2019-07-11 17:57:47 · 743 阅读 · 0 评论