
大数据
文章平均质量分 68
大数据
w.ang.jie
“在广袤的空间和无限的时间中,能与你共享同一颗行星和同一段时光是我的荣幸。”——卡尔.萨根《宇宙》
展开
-
HIVE库查询表报错:[Error 10001]: Line 1:14 Table not found无法找到表
hive客户端执行SELECT * FROM mdm_entity_person_id_map where 1=1;报错: [SELECT - 0 row(s), 0.000 secs] [Error Code: 10001, SQL State: 42S02] Error while compiling statement: FAILED: SemanticException [Error 10001]: Line 1:14 Table not found 'mdm_entity_person_id原创 2021-08-31 16:44:59 · 16262 阅读 · 1 评论 -
clickhouse linux安装使用以及Oracle数据库导入
安装下载clickhouseyum install clickhouse-server clickhouse-client编辑配置文档vi /etc/clickhouse-server/config.xmlsudo rpm --import https://repo.clickhouse.tech/CLICKHOUSE-KEY.GPGsudo -u clickhouse clickhouse-server --config-file=/etc/clickhouse-server/config.原创 2021-08-23 15:48:23 · 1142 阅读 · 0 评论 -
elasticsearch导入之前删除的数据,doc状态为一直为deleted,无法查询
之前使用logstash导入到该index下一百多万条数据有问题,删除该节点后,又重新创建该节点;再次导入原先删除的数据,docs下“count”的数据一直保持为1,只有“deleted”的数量在不停增长。尝试了:重新安装eslasticsearch;替换版本后导入;建立不同名称的index后导入;删除temp文件夹下的eslasticsearch文件后导入;forcemerge清空删除状态的数据后导入;以上操作均无效,数据导入后增长的只有 “deleted”的数量,且每次“count”.原创 2021-08-17 18:18:56 · 1500 阅读 · 0 评论 -
什么是数据库连接池?为什么使用数据库连接池?数据库连接池工作原理
我们安装完Yarn后,可以在浏览器中通过http://ip:8088来访问Yarn的WEB UI,如下图:原创 2020-07-23 17:51:04 · 16206 阅读 · 0 评论 -
MapReduce(概念、工作流程分析、与yarn关系)详解
一、MapReduce的概念MapReduce是一种分布式计算模型,是Google提出的,主要用于搜索领域,用于大规模数据集(大于1TB)的并行运算。MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。核心思想就是 “ 分而治之 ” :Mapper负责“分”,即把复杂的任务分解为若干个“简单的任务”来处理。“简单的任务”包含三层含义:一是数据或计算的规模相对原任务要大大缩小;二是就近计算原则,即任务会分配到存放着所需数据的节点上进行计算原创 2020-07-21 22:20:21 · 1378 阅读 · 1 评论 -
配置完/var/spool/cron/其他非root用户的定时任务没有运行
因为是在gbase用户下运行的脚本,所以先su - gbase,再crontab -e查看编辑当前用户的定时任务,也可以在/var/spool/cron/gbase文件中查看编辑gbase用户的定时任务。一开始使用8 * * * * /bin/bash /tmp/gcheck_running_sql.sh,查不到脚本执行结果;后续改为1 * * * * cd /tmp && ./gcheck_running_sql.sh >> /tmp/test.log 2>&原创 2020-07-08 16:02:48 · 4227 阅读 · 0 评论 -
大数据各类服务组件架构笔记
1.1 ES(Elastic Search)ES 是一个基于Lucene的高性能,高可用,开源的分布式全文搜索引擎;1.1.1 ES架构集群:ES可以独立的作为单个搜索服务器;为了处理大型数据集,实现容错和高可用性,ES可以运行在多台服务器上,这些服务器组成集群;节点(Cluster):形成集群的每台服务器,其实是指ES进程;Master主节点:集群的状态由Master节点维护,生产中建议不存储数据,减轻主节点压力,普通服务器即可;Data数据节点:存储索引数据,并且提供索引查询,消耗内存和磁原创 2020-06-09 23:55:22 · 666 阅读 · 0 评论 -
大数据各类服务组件说明笔记
组件说明:组件说明ZooKeeperApache ZooKeeper 是用于维护和同步配置数据的集中服务。HDFSHadoop 分布式文件系统 (HDFS) 是 Hadoop 应用程序使用的主要存储系统。HDFS 创建多个数据块副本并将它们分布在整个群集的计算主机上,以启用可靠且极其快速的计算功能,依赖ZooKeeper服务。YarnHadoop MapReduce 2.0 (MRv2) 或 Yarn 是支持 MapReduce 应用程序的数据计算框架,依赖HDFS服原创 2020-05-31 01:04:44 · 1222 阅读 · 0 评论 -
Sqoop2(1.99.7) 安装配置与测试
使用sqool将爬虫到MySQL的数据传输到hdfs上原创 2020-01-29 20:31:54 · 2020 阅读 · 4 评论 -
HBase启动问题总结
HBase启动问题总结1) Server is not running yet解决办法2)KeeperErrorCode = NoNode for /hbase/master/master1) Server is not running yet./hbase shell进入HBase Client端后尝试新建一个表格报错 Server is not running yet:$ ./hbas...原创 2019-12-29 20:13:53 · 4016 阅读 · 1 评论 -
Windows作为client客户机访问Hadoop集群
Windows作为client客户机访问Hadoop集群1. 将集群中的Hadoop打包解压到Windows客户机2. 将Hadoop配置文件中的文件地址都改为本机地址,hadoop和Java的地址均需要修改为与本机一致的位置;3. 修改Windows环境变量4. 配置本地用户变量5. 替换bin文件6. 修改hosts文件7. 网络测试8. 传输文件测试1. 将集群中的Hadoop打包解压到W...原创 2019-12-13 12:10:01 · 1304 阅读 · 0 评论 -
centos下Hadoop集群安装
1. 主机操作系统版本:**Windows 10**, 64-bit (Build 18362) 10.0.18362; 2. 虚拟机:**VMware**® Workstation 14 Pro; 3. 虚拟机操作系统版本:**Centos** 7 64 位; 4. Linux version: 3.10.0-514.el7.x86_64; 5. Hadoop version:2.10.0 6. jdk version:1.8.0_231原创 2019-12-11 20:21:49 · 1647 阅读 · 2 评论 -
debian下zookeeper集群安装配置
Debian下zookeeper集群安装配置1. 操作环境2. Java环境配置3. 修改IP为固定地址3.1 VMware网络配置3.2 虚拟机系统网络配置4. zookeeper集群搭建4.1 zookeeper配置文件4.2 虚拟机克隆4.3 启动zookeeper集群1. 操作环境(1) 主机操作系统版本:Windows 10, 64-bit (Build 18362) 10.0.1...原创 2019-11-30 21:10:32 · 1024 阅读 · 0 评论 -
Debian下hadoop安装
Windows10 VMware workstation14 Debian9下Hadoop的安装配置过程原创 2019-11-29 16:00:44 · 2371 阅读 · 0 评论