
大数据
文章平均质量分 58
皓阳当空
这个作者很懒,什么都没留下…
展开
-
flink入门-分词统计demo
flink入门-分词统计demo一:运行环境1.docker2.flink1.13.13.maven4.java8二:部署maven下载,解压maven:> mkdir /usr/local/maven> cd /usr/local/maven> wget https://mirrors.bfsu.edu.cn/apache/maven/maven-3/3.8.1/binaries/apache-maven-3.8.1-bin.tar.gz> tar -zxvf原创 2021-07-15 18:28:12 · 604 阅读 · 0 评论 -
python操作hbase(基于thrift服务)
一:环境说明ubuntu 16.04 python2.7 happybase (python包, 执行命令 pip install happybase 安装) hbase v1.3.1 (docker 镜像) thrift 特别注意 thrift 、thrift2,新版本的hbase,默认使用thrift2,而thrift2相比thrift,去掉了很多对hbase的命令支...原创 2018-08-25 11:29:49 · 1249 阅读 · 0 评论 -
HBase Shell整理
常用命令# 服务器的细节和系统的状态status#HBase系统使用的版本version# 帮助table_help# 当前HBase用户whoami表操作# 列出表list# 创建表student, 为表建列族info、classes# create 表名,列族名1,列族名2,......create 'student','info','classes'...原创 2018-08-24 16:46:02 · 271 阅读 · 0 评论 -
mapreduce实例--统计文本中的单词数
mapreduce实例–统计文本中的单词数一:环境描述:hadoop2.8.1 文件上传至hdfs,程序从hdfs读取计算,计算结果存储到hdfs二:前期准备2.1 上传文件word.txt至hdfsword.txt 文件内容:Could not obtain block, Could not obtain block, Could not obtain ...原创 2018-06-05 16:10:10 · 1876 阅读 · 0 评论 -
Hadoop的HA机制
前言:正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制一:HA的运作机制1.1 hadoop-HA集群运作机制介绍所谓HA,即高可用(7*24小时不中断服务) 实现高可用最关键的是消除单点故障 hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA1.2 HDFS的HA机制详解通过双namenode消除单点故障...原创 2018-05-25 13:57:42 · 457 阅读 · 0 评论 -
mapreduce原理
一: MAPREDUCE原理Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上;1.1 为什么要MAPREDUCE(1)海量数据在单机上处理因为硬件资源限制,无法胜任 (2)而一旦将单机版程序扩展...原创 2018-05-25 10:15:58 · 1027 阅读 · 0 评论 -
spark+hadoop集群搭建-虚拟机
spark+hadoop集群搭建-虚拟机一、本次搭建环境说明 VMware Fusion master:ubuntu16.04 64位 ip:172.16.29.11 slave1:ubuntu16.04 64位 ip:172.16.29.12 slave1:ubuntu16.04 64位 ip:172.16.29.13 jdk9.0.4 hadoop2.8.1 spa...原创 2018-03-27 19:21:56 · 1016 阅读 · 0 评论 -
flume+hadoop日志收集集群搭建
flume+hadoop日志收集集群搭建一、系统环境描述VMware ubuntu16.04 64位 ip:172.16.29.10 应用程序服务器 ubuntu16.04 64位 ip:172.16.29.11 hadoop集群 namenode节点 ubuntu16.04 64位 ip:172.16.29.12 hadoop集群 datanode节点 ubun...原创 2018-03-19 19:33:03 · 2130 阅读 · 0 评论 -
hadoop搭建全分布式集群-虚拟机
hadoop搭建全分布式集群-虚拟机一、本次搭建环境说明VMware Fusion master:ubuntu16.04 64位 ip:172.16.29.11 slave1:ubuntu16.04 64位 ip:172.16.29.12 slave1:ubuntu16.04 64位 ip:172.16.29.13 jdk9.0.4 hadoop2.8.1二、jdk、...原创 2018-03-17 12:55:34 · 1148 阅读 · 1 评论 -
hadoop搭建伪分布式集群-虚拟机
hadoop搭建伪分布式集群-虚拟机一、Hadoop的三种运行模式(启动模式)1.1、单机模式(独立模式)(Local或Standalone Mode)默认情况下,Hadoop即处于该模式,用于开发和调式。不对配置文件进行修改。使用本地文件系统,而不是分布式文件系统。Hadoop不会启动NameNode、DataNode、JobTracker、TaskTracker等...原创 2018-03-16 12:58:52 · 1393 阅读 · 0 评论 -
zookeeper集群自动搭建脚本
zookeeper集群自动搭建脚本设备:一台mac主机,三台虚拟机(CentOS7 mini)执行流程:1.脚本在mac主机执行,先下载zookeeper包,解压,重命名解压后的文件夹。 2.确定将此目录放在桌面文件夹下。 3.循环向三台虚拟机:传送zookeeper文件夹;更新hosts文件内容,增三台虚拟机的ip及主机名;配置zookeeper,创建data、logs文件夹;设置zoo.cf原创 2017-04-21 15:29:21 · 1024 阅读 · 0 评论 -
zookeeper集群搭建
zookeeper集群搭建zookeeper集群服务器数量必须是奇数台,因此集群最少3太服务器,本案例以CentOS7 mini为例,分三台服务器。 永久修改主机名:hostnamectl –static set-hostname 你的主机名称1.下载zookeeperwget http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.5.2-原创 2017-04-18 19:08:02 · 358 阅读 · 0 评论