
hadoop
SoLucky2017
这个up主有点懒,懒上青天
展开
-
Hbase - regionserver存储过程(写过程)
架构图写入流程Hadoop 生态圈来源 Google 的三篇论文: 谷歌有三宝 计算(MapReduce) 存储(GFS)和 大表(BIgtable)BigTable ---> HBase Hadoop DataBase传统的关系型数据库 : Mysql Oracle 操作方式 : sql操作什么叫做关系型数据库 : 基于关系模型提出来数据库,数据最终保存在一张二维表里面HBase 是一个Nosql not only sql...原创 2020-06-07 11:22:33 · 587 阅读 · 0 评论 -
hadoop mapreduce数据倾斜
三个测试文件:1 2 3 .txthello tom1 ---tom30 最终生成分区文件:hello分布到part-r-00001上 采用随机分区结果:hello随机分布2阶mapreduce 结果:解决了大数据量的数据倾斜总结:两次mapreduce计算,第一次减少统计的数据量,目的是均匀分...原创 2019-01-16 17:16:58 · 241 阅读 · 1 评论 -
HA-hadoop集群 高可用
基于hadoop完全分布式基础上 1 克隆s200 为s206配置:---1-----2-----3 [/etc/sysconfig/network-scripts/ifcfg-ethxxxx] ... IPADDR=..-----4service network restart 2配置200 206完...原创 2019-01-28 15:41:10 · 153 阅读 · 1 评论 -
Hbase-分布式+高可用
hadoop:master:s200slave:s201 s202 s203----------------------------zookeeper: s201 202 203----------------------------hbasemaster:s200 s201region:s201 s202 s203 -------------------...原创 2019-02-12 12:24:36 · 233 阅读 · 1 评论 -
storm集群
s201-s2031安装配置环境变量:export STORM=/home/centos/soft/stormexport PATH=$STORM/bin:2配置文件修改:storm.local.dir: "/home/centos/storm"storm.zookeeper.servers: - "s202" - "s203"storm.zookeeper....原创 2019-03-15 14:07:03 · 176 阅读 · 0 评论 -
spark java world-count例子
导入spark包 在项目页“File” -> "project structure" -> "Libraries", 点“+”,选“java”,找到spark-assembly-1.2.0-hadoop2.4.0.jar导入,这样就可以编写spark的scala程序了(例子有空补)下载spark的jar包, 在下载页面选择相应的spark版本, 包类型这里选择spark1...原创 2019-05-05 13:00:34 · 306 阅读 · 0 评论 -
spark1 安装以及集群启动
https://blog.youkuaiyun.com/u011444062/article/details/81486771转载 2019-04-30 09:28:20 · 178 阅读 · 0 评论 -
sprk scala count例子
1 cd到bin目录下 进入scala命令行./spark-shell2 拷贝README.md到bin目录下3scala语句val lines=sc.textFile("README.md")lines.count()4 提取前三行val lines3=lines.take(3)...原创 2019-04-30 14:58:26 · 2000 阅读 · 0 评论 -
spark操纵 mysql
pom:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="ht...原创 2019-05-07 14:47:16 · 104 阅读 · 0 评论 -
spark+hdfs+hive
1 启动hdfshttps://blog.youkuaiyun.com/ssllkkyyaa/article/details/867358172启动hivehttps://blog.youkuaiyun.com/ssllkkyyaa/article/details/86527365s200启动hive$HIVE_HOME/bin/hive3启动sparkhttps://blog.csdn.n...原创 2019-05-24 17:32:05 · 2545 阅读 · 1 评论 -
spark----rdd变化,action
RDD变换------------------ 返回指向新rdd的指针,在rdd之间创建依赖关系。每个rdd都有计算函数和指向父RDD的指针。 map() //对每个元素进行变换,应用变换函数 //(T)=>...转载 2019-06-14 09:05:35 · 179 阅读 · 0 评论 -
HA-hadoop自动容灾
---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------...原创 2019-02-01 09:26:39 · 795 阅读 · 3 评论 -
hadoop 单机 本地 多输入 mapreduce
码上代码: 建立测试环境:创建seq 序列化文件:/** * 写操作 */ @Test public void zipGzip() throws Exception { Configuration conf = new Configuration(); conf.set("fs.defaultFS","fil...原创 2019-01-16 10:33:33 · 433 阅读 · 0 评论 -
hadoop idea连接远程hadoop 压缩解压缩文件
1创建测试文件 home/centos/zip/a.txt2 代码编写package com.it18zhang.hdfs.mr.compress;import com.hadoop.compression.lzo.*;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.io.IOUt...原创 2019-01-15 17:31:41 · 608 阅读 · 2 评论 -
Hadoop中DataNode没有启动解决办法
https://blog.youkuaiyun.com/u013129944/article/details/78604651./stop-dfs.sh注意只删掉tmp/hdf/data也可以:hadoop namenode -format ./start-dfs.sh原创 2018-10-11 09:10:59 · 6625 阅读 · 0 评论 -
Hadoop 常用命令
1 建立index.html测试文件vi index.htmlhello nihaohelloworldhello worldddfghalloworldddd2 上传hadoop的hdfs上hadoop fs=hdfs dfshdfs dfs -mkdir -p /user/centos/hadoophadoop fs -put index.html ...原创 2018-10-10 11:28:58 · 199 阅读 · 0 评论 -
hadoop localhost:50070/访问失败
1关闭防火墙systemctl stop firewalld.service2配置hdfs-site.xml<?xml version="1.0"?><configuration><property><name>dfs.replication</name><value>1</value&a原创 2018-10-31 17:04:41 · 17234 阅读 · 1 评论 -
hadoop读写操作
新建项目:导入libs:再hadoop解压下的库2.7.2:https://download.youkuaiyun.com/download/ssllkkyyaa/10758406 文件api测试:package com.example.demo;import org.apache.commons.io.output.ByteArrayOutputStream;import o...原创 2018-11-01 16:19:59 · 319 阅读 · 1 评论 -
Mapreduce ----完全分布式WorldCount(远程) 示例
1 建立项目链接:https://pan.baidu.com/s/15yZQLMqnXFDsbJ_61iXAGw 提取码:44fh 复制这段内容后打开百度网盘手机App,操作更方便哦下载见附件:https://download.youkuaiyun.com/upload/success导出jar: HdfsDemo-1.0-SNAPSHOT.jar 2 建立测试1.txt...原创 2018-11-02 15:54:33 · 562 阅读 · 0 评论 -
hive创建库Underlying cause: java.sql.SQLException : Access denied for user
grant all privileges on *.* to root@'%' identified by 'passwd'; 将数据库赋予权限原创 2019-01-17 15:35:28 · 4110 阅读 · 0 评论 -
Hive 安装 配置 连接mysql hive beeline
hive------------------ 在hadoop处理结构化数据的数据仓库。 不是: 关系数据库 不是OLTP 实时查询和行级更新。hive特点---------- hive存储数据结构(schema)在数据库中,处理的数据进入hdfs. OLAP HQL / HiveQLhiv...原创 2019-01-17 16:49:15 · 974 阅读 · 3 评论 -
mapreduce word count 本地机器运行
链接:https://pan.baidu.com/s/12b8Ef7Tem7WsMchCJbWFTw 提取码:ja19 复制这段内容后打开百度网盘手机App,操作更方便哦 坑:org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0(Ljava/lang/String;I)V原因:是你的ha...原创 2019-01-14 16:54:39 · 151 阅读 · 0 评论 -
完全分布式hadoop
1.克隆3台client(centos7) 右键s200-->管理->克隆-> ... -> 完整克隆 2.启动client 3.启用客户机共享文件夹。 4.修改hostname和ip地址文件https://blog.youkuaiyun.com/ssllkkyyaa/article/details/83410871 ssh...原创 2018-11-01 08:52:22 · 228 阅读 · 5 评论 -
计数器与自定义计数器
https://www.cnblogs.com/edisonchou/p/4297599.html 实例:链接:https://pan.baidu.com/s/1qeryRGn2oyXeyLSqabKBBA 提取码:5wia 复制这段内容后打开百度网盘手机App,操作更方便哦 关键代码:package com.example.demo.mapred;import ...转载 2019-01-15 14:59:48 · 712 阅读 · 0 评论 -
使用Docker搭建hadoop集群
https://blog.youkuaiyun.com/qq_33530388/article/details/72811705 外网访问iptables -t nat -A DOCKER -p tcp --dport 50070 -j DNAT --to-destination 172.17.0.3:50070 ------------------------------------...转载 2018-09-25 14:54:08 · 2378 阅读 · 4 评论