
hadoop
文章平均质量分 76
yandao
“我是谁”、“我在哪”、“我要去哪儿”
展开
-
hadoop wordcount
wordcount原创 2022-06-21 08:09:26 · 2323 阅读 · 0 评论 -
HBase之完全分布式
hbase 分布式原创 2022-06-12 23:24:41 · 1018 阅读 · 0 评论 -
Hbase配置之-伪分布式
HBASE-伪分布式原创 2022-06-12 19:04:02 · 1396 阅读 · 0 评论 -
Hadoop伪分布式安装
Hadoop伪分布式安装1.安装centos2.修改IP地址3.修改主机映射4.修改IP映射5.查看防火墙和selinux,确认关闭6.密钥7.上传文件到/export/software8.配置环境变量9.修改配置文件9.1 hadoop-env.sh9.2 修改core-site.xml9.3 修改hdfs-site.xml10.开启集群11.访问网址1.安装centos30G空间/boot 300Mswap 2048/ Fill2.修改IP地址vi /etc/sysconfig/netwo原创 2022-04-11 23:02:49 · 1206 阅读 · 0 评论 -
Hbase基础
HBase原创 2022-06-11 08:02:40 · 1217 阅读 · 0 评论 -
HDFS HA高可用
HA概述1)所谓HA(High Available),即高可用(7*24小时不中断服务)。2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。3)Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。4)NameNode主要在以下两个方面影响HDFS集群NameNode机器发生意外,如宕机,集群将无法使用,直到管理员重启NameNode机器需要升级,包括软件、硬件升级,此时集群也将无法使用HDFS HA功原创 2022-05-30 15:01:04 · 415 阅读 · 0 评论 -
ZooKeeper安装、配置和使用
Zookeeper的原理Zookeeper的概述:ZooKeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。ZooKeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,ZooKeeper就将负责通知已经在ZooKeeper上注册的那些观察者做出相应的反应。例如:一组服务器集群、一组客户端,全部通过ZooKeeper注册,如果一台服务节点宕机,则ZooKeeper集群原创 2022-05-30 10:19:16 · 373 阅读 · 0 评论 -
HDFS文件系统
HDFS是Hadoop体系中最重要的组成部分,主要用于解决海量大数据的存储的问题,是目前应用最广的分布式文件存储系统。1.HDFS解决传统文件存储的两个问题当数据量越来越大时,会遇到存储的瓶颈,需要扩容由于文件太大,上传和下载都非常耗时解决:扩容纵向扩容:增加内存和磁盘横向扩容:增加服务器的数量分块:大的文件分成多个数据库,并行处理数据2.HDFS的基本概念2.1 NameNode(名称节点)NameNode是HDFS集群的主服务器,通常成为名称节点或者主节点。两大功能原创 2022-04-25 09:53:08 · 3012 阅读 · 0 评论 -
hadoop问题总结
1.The authenticity of host ‘localhost (::1)’ can’t be established.方法1ssh -o StrictHostKeyChecking=no 192.168.121.xxx方法2修改/etc/ssh/ssh_config文件(或$HOME/.ssh/config)中的配置,添加如下两行配置:StrictHostKeyChecking noUserKnownHostsFile /dev/null修改好配置后,重新启动sshd服务即可原创 2022-04-24 13:53:39 · 2613 阅读 · 0 评论 -
hadoop集群端口
在访问hadoop集群时,经常会遇到各种端口,如通过HTTP访问、TCP访问、RPC访问等。以下是收集整理的一些常用的hadoop集群默认端口。Hadoop环境:2.x一、hadoop配置文件说明:序号配置文件名配置对象主要内容1core-site.xml集群全局参数用于定义系统级别的参数,如defaultFS、Hadoop的临时目录等2hdfs-site.xmlHDFS参数HDFS名称节点和数据节点的存放位置、文件副本的个数、文件读取权限等3m原创 2022-04-24 08:11:44 · 1003 阅读 · 0 评论 -
Hadoop之本地模式
本地模式介绍本地模式是最简单的模式,所有模块都运行在一个JVM进程中,使用本地文件系统而不是HDFS。特点 :本地模式,即运⾏在单台机器上,没有分布式思想,使⽤的是本地⽂件系统。⽤途 :本地模式主要⽤于对 MapReduce 程序的逻辑进⾏调试,确保程序的正确。由于在本地模式下测试和调试 MapReduce 程序较为⽅便,因此,这种模式适宜⽤在开发阶段。【主要是用于本地开发过程中的运行调试用,下载后的Hadoop不需要设置默认就是本地模式。】平台以及软件介绍平台 & 软件原创 2022-04-12 09:53:27 · 1496 阅读 · 0 评论 -
Hadoop完全分布式配置
1.虚拟机环境准备1.1 克隆虚拟机1.2. 修改克隆虚拟机的静态IP机器名静态IPmaster192.168.121.151slaver1192.168.121.152slaver2192.168.121.153[root@master Desktop]# vi /etc/sysconfig/network-scripts/ifcfg-eno16777736 #输入以下内容DEVICE=eno16777736TYPE=EthernetONB原创 2022-04-18 16:17:25 · 6319 阅读 · 1 评论 -
hadoop配置使用到的脚本
1.ip_hostname.sh 查看ip和hostname[root@master conf]# vi ip_hostname.sh#!/bin/bash# input ipip=`ifconfig eno16777736| grep "inet" | awk '{ print $2}'`echo "本机的IP是$ip"# input hostnamehostname=`hostname`echo "本机的主机名是$hostname"ip=`ifconfig -a|grep inet|原创 2022-04-18 16:05:12 · 2349 阅读 · 0 评论 -
Hadoop架构梳理和生态圈
hadoop 1.x和2.x区别版本1.x2.xcommon组件有有hdfs组件有有yarn组件没有负责资源调度map-reduce组件负责计算和资源调度负责计算1.x中map reduce负责计算和资源调度,而在2.x版本中解耦,yarn负责资源调度,map reduce负责计算hdfs-Hadoop Distributed File System架构1.NameNode(nn):存储文件的元数据,如文件名、文件目录结构、文件属性(生成原创 2020-12-17 17:58:51 · 139 阅读 · 1 评论 -
Java代码-Kafka的Publish和Subscribe
import java.util.Properties;import java.util.Random;import java.util.concurrent.TimeUnit;import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerConfig;import org.apache.kafka.clients.producer.ProducerR原创 2020-09-22 10:13:32 · 706 阅读 · 0 评论 -
Flume-1.8.0的安装与配置
安装下载http://flume.apache.org/download.htmlhttp://archive.apache.org/dist/flume/1.8.0/解压tar -xzvf apache-flume-1.8.0-bin.tar.gz建立一个软连接ln -s apache-flume-1.8.0-bin flume-1.8.0设置环境变量[root@single ~]# echo $PATH/usr/local/sbin:/usr/local/bin:/usr/sbin:原创 2020-09-21 15:23:44 · 1389 阅读 · 0 评论 -
Yarn的工作机制/作业提交流程
作业提交全过程详解(1)作业提交第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。第2步: Client向RM申请一个作业id。第3步: RM给Client返回该job资源的提交路径和作业id。第4步: Client提交jar包,切片信息和配置文件到指定的资源提交路径。第5步: Client提交完资源后,向RM申请运行MrAppMaster。(2)作业初始化第6步: 当RM收到Client的请求后,将该job添加到容量调度器中。第原创 2020-09-20 23:46:45 · 396 阅读 · 0 评论 -
HBaseClient的表操作java实现create put get delete
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.hbase.HTableDescriptor;import org.apache.hadoop.hbase.TableName;import org.apache..原创 2020-09-20 23:11:39 · 168 阅读 · 0 评论 -
Yarn架构-简单理解
Yarn架构1.ResourceManager(RM)的主要作用如下:(1)处理客户端的请求(2)监控NodeManager(3)启动或监控ApplicationMaster(4)资源的分配与调度2.NodeManager(NM)的主要作用如下(1)管理单个节点上的资源(2)处理来自ResourceManager的命令(3)处理来自ApplicationMaster的命令3.ApplicationMaster的主要作用如下(1)负责数据的切分(2)为应用程序申请资源并分配给内部的任务原创 2020-09-20 20:04:02 · 234 阅读 · 0 评论 -
HBase Error org.apache.hadoop.hbase.InvalidFamilyOperationException
HBase在createTable的时候遇到如下问题:代码public class HBaseClient { public static void main(String[] args) throws Exception { Configuration configuration = HBaseConfiguration.create(); Connection connection = ConnectionFactory.createConnection(configuration);原创 2020-09-20 18:26:05 · 305 阅读 · 0 评论 -
HBase的使用命令总结
准备工作配置好一个master,两个slave:slave1,slave2,启动hadoopmaster结点[root@master ~]# start-all.shThis script is Deprecated. Instead use start-dfs.sh and start-yarn.shStarting namenodes on [master]master: starting namenode, logging to /home/hadoop/hadoop-2.7.3/logs原创 2020-09-20 11:21:39 · 440 阅读 · 0 评论 -
java.io.IOException: Type mismatch in key from map: expected org.apache.hadoop.
查找设置mapper所用类型job.setMapperClass(RMapper.class);job.setMapOutputKeyClass(Text.class);job.setMapOutputKeyClass(IntWritable.class);job.setMapperClass(RMapper.class);job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(IntWritable.class);2原创 2020-09-14 15:25:44 · 623 阅读 · 0 评论 -
org.apache.hadoop.io.WritableComparator.compare(WritableComparator.java:164)
问题出现的原因: @Override public void write(DataOutput out) throws IOException { // TODO Auto-generated method stub out.write(year); out.writeInt(month); out.writeInt(day); out.writeInt(wd); } @Override public void readFields(DataInput in) throws原创 2020-09-14 10:37:46 · 398 阅读 · 0 评论 -
Hadoop天气系统
1.写完计数程序打包成jar只要class文件即可2.上传到node1上3.hadoop jar weather.jar com.hadoop.mr.weather.WeatherSystemhdfs dfs -ls /data/weather/outputhdfs dfs -cat /data/weather/output/part-r-00000也可以把内容copy到当前的目录hdfs dfs -get /data/weather/output/* ./public class Weat原创 2020-09-13 23:45:05 · 2578 阅读 · 0 评论 -
Hadoop中DataNode没有启动
Hadoop中DataNode没有启动主要原因是因为namenode 启动格式化引起的clusterID不一致把datanode的clusterID 修改为namenode上的clusterID[root@node1 hadoop]# cat /var/hadoop/ha/dfs/name/current/VERSION #Sun Sep 13 06:16:51 CST 2020namespaceID=240374401clusterID=CID-6b9fbb66-0dd8-4a59-ad6e原创 2020-09-13 23:06:56 · 194 阅读 · 0 评论 -
Hadoop wordcount源码
1.写完计数程序打包成jar只要class文件即可2.上传到node1上3.hadoop jar wordcount.jar com.hadoop.mr.WordCounthdfs dfs -ls /data/outputhdfs dfs -cat /data/output/part-r-00000也可以把内容copy到当前的目录hdfs dfs -get /data/output/* ./package com.hadoop.mr.count;import java.io.IOExce原创 2020-09-13 11:43:09 · 275 阅读 · 0 评论 -
Hadoop 2.6.5 Windows Eclipse环境搭建
准备材料hadoop-eclipse-plugin-2.6.0.jarhadoop-2.6.5.tar.gzhadoop-2.6.5-src.tar.gz(不debug查看源码这个也可以不用)对windows支持很好的bin的一些文件准备好这些以后,需要做以下事情把hadoop.dll move/copy到C:\Windows\System32(最好重启系统)把hadoop-eclipse-plugin-2.6.0.jar放到eclipse的plugin目录下,最好重启eclipse解压原创 2020-09-12 22:42:15 · 436 阅读 · 0 评论 -
hadoop 2.6.5下的服务器搭建记录
免密钥有两个需求场景:1.管理脚本 远程管理其他的节点脚本启动2.ZKFC:需要免密钥控制对方和自己JNN配置步骤:1.逻辑到物理的映射2.journalnode相关位置信息的一个描述3.发生故障免密钥的切换的配置启动过程1.先启动JNN2.再启动一个NameNode进行格式化,然后启动这个namenode3.另外一个NameNode启动进行信息同步1.上传解压tar xf zookeeper-3.4.6.tar.gz2. mv zookeeper-3.4.6 /opt/sxt/3原创 2020-09-12 21:20:58 · 103 阅读 · 0 评论 -
大数据的基础知识普及
大数据大数据的定义生成和消费模式发生了很大的变化原模式:少数公司生成数据,人们消费数据。如电影、报纸新模式:人们生产数据,人们消费数据。比如微信操作、搜索操作、买东西的痕迹美国国家标准技术研究院给大数据的定义:大数据有规模巨大(Volume)、种类繁多(Variety)、增长速度快(Velocity)、和变化多样性(Variability),且需要一个可扩展体系结构来有效存储、处理和分析广泛收集来的数据IBM早期提出4V特性,强调数据的数量(Volume)、多样性(Variety)、速度(Ve原创 2020-09-09 22:39:57 · 920 阅读 · 1 评论