
大数据
文章平均质量分 66
不定时更新学习大数据过程中的一些笔记和想法,欢迎大家批评指正!
PhoenixLuo·
这个作者很懒,什么都没留下…
展开
-
ifconfig发现不再显示网卡eth0,且不能ping通
之前已经部署好的环境,关闭了虚拟机。等过段时间后再次打开,ifconfig发现不再显示网卡eth0,且不能ping通。之前已经部署好的环境,关闭了虚拟机。等过段时间后再次打开,ifconfig发现不再显示网卡eth0,且不能ping通。1 进入network-scripts发现eth0存在,且里面配置的信息无误!2 输入ifconfig -a命令,可显示eth0和lo。4 ifconfig eth0 up 启用网卡。7 ifconfig 之后显示网卡信息正确。3 mii-tool 检查网卡是否启用。原创 2022-05-03 10:51:36 · 2875 阅读 · 0 评论 -
5 数据仓库-Hive
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并 提供类SQL查询功能。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,说白了 hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更进一步可以说hive就是一 个MapReduce的客户端。原创 2023-07-25 09:59:38 · 719 阅读 · 0 评论 -
解决Hadoop数据倾斜问题
自定义散列函数,将key均匀分布到不同的Reducer中。原创 2023-03-27 15:28:15 · 682 阅读 · 0 评论 -
Flume内存优化
Xmx和-Xms最好设置一致(或者设置的差距不要太大),减少内存抖动带来的性能影响。-Xmx表示JVM Heap(堆内存)最大允许的尺寸,按需分配,但不能超过物理内存。Flume是基于Java的,当使用flume遇到内存溢出等异常,可以调整JVM参数。-Xms表示JVM Heap(堆内存)最小允许的尺寸。查看flume使用了多少内存。原创 2023-03-27 14:13:25 · 549 阅读 · 0 评论 -
Hadoop参数调优
在hdfs-site.xml文件中配置多目录:Namenode多目录配置,namenode本地目录可以配置成多个,且每个目录的内容相同,提高可靠性。<property>Datanode多目录配置,每个目录存储的数据不同(不是副本)。目的是随着数据量增多,磁盘容量不够的情况下,需要扩容。<property>Hadoop3.x中内存是动态分配的,不是很合理。后面追加配置,比如1Gnamenode最小1GB,每增加100W个block,增加1GB内存。datanode。原创 2023-03-27 13:38:14 · 330 阅读 · 0 评论 -
4 Hadoop-Yarn
yarn是hadoop集群当中的资源管理系统模块,从hadoop2.0开始引入yarn模块,yarn可为各类计 算框架提供资源的管理和调度,主要用于管理集群当中的资源(主要是服务器的各种硬件资 源,包括CPU,内存,磁盘,网络IO等)以及调度运行在yarn上面的各种任务。yarn核心出发点是为了分离资源管理与作业监控,实现分离的做法是拥有一个全局的资源管 理(ResourceManager,RM),以及每个应用程序对应一个的应用管理器 (ApplicationMaster,AM)原创 2023-03-24 19:34:07 · 92 阅读 · 0 评论 -
Yarn的会话模式部署失败
申请一个yarn会话(yarn session)来启动集群失败怎么办?原创 2022-11-04 17:24:35 · 346 阅读 · 0 评论 -
Kafka连接服务器/查看topic详情等情况出现:Connection to node -1 (localhost/127.0.0.1:9092) could not be established.
在学习Kafka数据去重时,一直报错!报错如下图所示:package com.atguigu.kafka.producer;import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerConfig;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache..原创 2022-05-17 16:41:31 · 1390 阅读 · 0 评论 -
Linux中的xcall、xsync脚本等操作
在学习Kafka集群启停脚本中,需要写一个kf.sh脚本,但是此前我的环境中没有xcall,xsync等脚本。因此我查询了一些博客,最后解决了问题。建议先创建xsync的脚本,之后再创建xcall脚本。【创建xsync脚本】第一步、在/usr/local/bin目录下 创建xsync文件第二步、yum install rsync -y第三步、编辑xsync脚本vim xsync#!/bin/bash#1. 判断参数个数if [ $# -lt 1 ]then原创 2022-05-10 17:13:11 · 1757 阅读 · 0 评论 -
4 Hadoop-Mapreduce
目录4.4 MapReduce4.4.1 MapReduce 介绍MapReduce 设计构思4.4.2 MapReduce 编程规范4.4.3 WordCount(经典案例)Step 1. 数据格式准备Step 2. MapperStep 3. ReducerStep 4. 定义主类, 描述 Job 并提交 Job4.4.4 MapReduce 运行模式集群运行模式本地运行模式 (一般做测试用)4.4.5 MapReduce 分区Step 1. 定义原创 2022-05-03 10:47:38 · 836 阅读 · 0 评论 -
3 Hadoop-HDFS
目录3.1 Apache版本Hadoop重新编译3.1.1 为什么要编译Hadoop3.1.2 编译环境的准备3.2 Hadoop安装3.2.1 上传apache Hadoop包并压缩3.2.2 修改配置文件3.2.3 配置Hadoop的环境3.2.4 启动集群3.3 Hadoop核心-HDFS3.3.1 HDFS概述3.3.2 HDFS应用场景适合的应用场景不适合的应用场景3.3.3 HDFS架构3.3.4 NameNode和DataNode原创 2022-04-04 18:07:57 · 1166 阅读 · 0 评论 -
2 Zookeeper
目录2.1 Zookeeper 的概述2.2 Zookeeper的特点2.3 Zookeeper的架构2.4 Zookeeper的应用场景2.4.1 数据发布/订阅2.4.2 命名服务2.4.3 分布式协调/通知2.4.4 分布式锁2.4.5 分布式队列2.5 Zookeeper的选举机制2.5.1. 服务器启动时期的Leader选举3.5.2.服务器运行时期的Leader选举2.6 Zookeeper安装2.7 Zookeeper的Shell 客户端原创 2022-04-03 22:29:52 · 1774 阅读 · 0 评论 -
1 集群Linux环境搭建
目录1.1 注意事项1.2 复制虚拟机1.3 虚拟机修改Mac和IP1.4 虚拟机关闭防火墙和SeLinux1.5 虚拟机免密码登录1.6 三台机器时钟同步1.7 三台机器安装jdk1.8 MySQL安装1.9 shell编程增强1.1 注意事项1.1.1 windows系统确认所有的关于VmWare的服务都已经启动右键点击任务栏-任务管理器-服务-确保vm服务都处于运行状态1.1.2 确认好VmWare生成的网关地址打开VMware workst原创 2022-04-03 22:14:25 · 3485 阅读 · 0 评论