
大数据
文章平均质量分 63
码上行舟
接受自己的普通,然后全力以赴的出众
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark单机模式安装
文章目录安装配置设置环境变量验证是否安装成功常见错误常见错误安装sudo tar -zxvf spark-2.4.0-bin-without-hadoop.tgz -C /usr/local/cd /usr/localmv spark-2.4.0-bin-without-hadoop/ spark # 更改文件夹名sudo chown -R hadoop:hadoop spark # hadoop是当前登录Linux系统的用户名配置cd /usr/local/spark/confcp原创 2021-03-13 09:51:51 · 357 阅读 · 0 评论 -
mapreduce学习笔记2——获取成绩中最高分
数据准备语文 96数学 102英语 130物理 19化学 44生物 44语文 109数学 118英语 141物理 72化学 21生物 7原创 2021-01-29 15:54:20 · 3807 阅读 · 3 评论 -
mapreduce学习笔记1——wordcount
文章目录数据准备实现结果文件结构编程流程编写代码集群运行数据准备hello,world,hadoophive,sqoop,flume,hellokitty,tom,jerry,worldhadoop实现结果文件结构编程流程编写代码JobMain.javapackage cn.itcast.mapreduce;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configu原创 2021-01-29 10:28:17 · 142 阅读 · 0 评论 -
hive 数据类型
基本数据类型Hive数据类型Java数据类型长度例子TINYINTbyte1byte 有符号整数20SMALLINTshort2byte 有符号整数20INTint4byte 有符号整数20BIGINTlong8byte 有符号整数20BOOLEANboolean布尔类型,true 或者 flaseTRUE FALSEFLOATfloat单精度浮点数3.14159DOUBLEdouble双精度浮点数3.1原创 2021-01-16 16:04:15 · 226 阅读 · 0 评论 -
hbase安装与配置(伪分步)
安装下载地址:https://mirror.bit.edu.cn/apache/hbase/这里使用的版本为 hbase-1.4.13-bin.tar.gz解压到 /usr/local 下,并把名字改为 hbase配置环境变量# set hbase environmentexport PATH=$PATH:/usr/local/hbase/bin伪分布配置配置 hbase-env.sh 文件cd /usr/local/hbase/confvi hbase-env.sh# 修改后的原创 2021-01-16 16:02:01 · 166 阅读 · 0 评论 -
sqoop的安装与配置
准备在开始之前先安装并配置好mysql和hadoop安装下载地址:http://www.apache.org/dyn/closer.lua/sqoop/注意:sqoop版本与hadoop版本不能相差太大这里使用的版本为:hadoop-2.7.7.tar.gzsqoop-1.4.7.bin__hadoop-2.6.0.tar解压到 /usr/local 下,并把名字改为 sqoop配置环境变量# set sqoop environmentexport SQOOP_HOME=/usr/lo原创 2021-01-15 17:38:39 · 693 阅读 · 0 评论 -
flume 单数据源多出口案例(Sink组)
按照拓扑图搭建 agent准备工作在/usr/local/flume/job目录下创建group2文件夹创建flume-netcat-flume.conf,flume-flume-console1.conf,flume-flume-console2.confflume-netcat-flume.conf# Name the components on this agenta1.sources = r1a1.channels = c1a1.sinkgroups = g1a1.sinks原创 2021-01-07 22:03:58 · 300 阅读 · 0 评论 -
flume 单数据源出口案例(选择器)
按照拓扑图搭建 agent准备工作在/usr/local/flume/job目录下创建group1文件夹在/usr/local/flume/job/group1目录下创建flume3文件夹,aaa.txt文件在 group1 下创建 flume-file-flume.conf,flume-flume-hdfs.conf,flume-flume-dir.conf 文件开启 hadoop 集群:start-all.shflume-file-flume.conf# Name the compo原创 2021-01-07 21:05:34 · 201 阅读 · 0 评论 -
flume的三个简单案例
文章目录简介监控端口数据案例实时读取本地文件到 HDFS 案例实时读取目录文件到 HDFS 案例netstat 用法简介监控端口数据案例案例需求:首先启动 Flume 任务,监控本机 44444 端口,服务端;然后通过 netcat 工具向本机 44444 端口发送消息,客户端;最后 Flume 将监听的数据实时显示在控制台。实现步骤:安装 netcat 工具sudo apt-get -y install netcat-traditional判断 44444 端口是否被占用s原创 2021-01-06 21:26:41 · 472 阅读 · 0 评论 -
ubuntu安装hive并配置mysql
文章目录下载hive安装hive配置环境变量安装MySql服务器Hive元数据配置到MySql初始化元数据库下载hivehttps://mirror.bit.edu.cn/apache/hive/https://mirrors.bfsu.edu.cn/apache/hive/https://mirrors.tuna.tsinghua.edu.cn/apache/hive/安装hivecd ~/Downloadssudo tar -zxvf apache-hive-3.1.2-bin.tar.g原创 2020-12-09 21:05:31 · 776 阅读 · 0 评论 -
hadoop完全分布式——jpsall.sh脚本
写 jpsall.sh 脚本cd $HADOOP_HOME/sbinsudo vi jpsall.sh# 写入如下内容# 执行jps命令查询每台服务器上的节点状态echo ======================集群节点状态====================for i in master slave1 slave2 do echo ====================== $i ==================== ssh hadoop@$i原创 2020-12-03 13:36:05 · 2318 阅读 · 0 评论 -
ubuntu 搭建 Hadoop完全分布式(resourcemanager 和 NameNode 不在同一台机器上)
文章目录拓扑图准备工作分布式模式配置1.修改主机名2.设置 hosts 文件3.配置集群/分布式环境4.ssh 无密码登录克隆虚拟机更改另外两台主机名更改另外两台虚拟机的 hosts格式化 namenode启动集群常见错误拓扑图准备工作新建虚拟机 master,安装 Ubuntu配置固定 IP安装必要软件(SSH 服务端、安装 Java 环境、安装 Hadoop,并完成配置)分布式模式配置1.修改主机名先修改一台,克隆虚拟机之后再改其它的# sudo gedit /etc/hostn原创 2020-11-27 22:19:26 · 899 阅读 · 0 评论 -
ubuntu 搭建 Hadoop 完全分布式集群
文章目录Hadoop 相关软件及版本虚拟机参数配置准备工作分布式模式配置错误Hadoop 相关软件及版本软件版本Linux OSubuntu-20.04.1JDKjdk-8u261-linux-x64VMware15.5.6Hadoophadoop-2.7.7虚拟机参数配置master:1.5G ~ 4G 内存、20G 硬盘、NAT、1 ~ 4 核slave1 ~ slave2:1G 内存、20G 硬盘、NAT、1 核上面的虚拟机参数配置只是原创 2020-10-24 20:58:48 · 4967 阅读 · 5 评论 -
hadoop——hdfs dfs 常用命令用法
hdfs dfs 常用命令用法原创 2020-10-19 07:44:01 · 1806 阅读 · 0 评论 -
ubuntu配置hadoop2.7.7
hadoop简介官方文档配置伪分布式监控集群错误简介Hadoop三大发行版本:Apache,Cloudera, HortonworksApache是最原始的版本,对于入门学习最好Cloudera在大型互联网企业中用的较多Hortonworks 文档较好Hadoop的优势高可靠性底层自动实现数据备份,即使一个节点数据丢失,也不会影响整体高拓展性在集群间分配任务数据,可方便的拓展数以千计的节点高效性任务处理速度快高容错性能够自动将失败任务重新分配HDFS架构Na原创 2020-10-17 13:58:21 · 853 阅读 · 2 评论