
hadoop
利剑 -~
追求卓越成功就会出其不意找上门
展开
-
MapReduce原理与设计思想
简单解释 MapReduce 算法一个有趣的例子你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃?MapReduce方法则是:给在座的所有玩家中分配这摞牌让每个玩家数自己手中的牌有几张是黑桃,然后把这个数目汇报给你你把所有玩家告诉你的数字加起来,得到最后的结论拆分MapReduce合并了两种经典函数:映射(M转载 2017-06-16 19:47:42 · 474 阅读 · 0 评论 -
hive 多用户访问模注意问题
首先是安装mysql 安装mysql数据库及客户端yum install mysql-serveryum install mysqlservicemysqld start 步骤一: yum -y install mysql-server 步骤二:service mysqld start 步骤三:mysql -u root -p Enter password: (默认是空密码,按enter) ...原创 2018-07-10 18:38:20 · 487 阅读 · 0 评论 -
spark on yarn webUI logs不能查看
执行spark on yarn 执行:./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster --executor-memory 1G --num-executors 3 ./lib/spark-examples-1.6.3-hadoop2.6.0.jar 10 命令执行成功后在yar...原创 2018-07-08 23:42:41 · 3991 阅读 · 0 评论 -
spark on yarn 部署问题
spark on yarn 部署报:java.io.IOException: Resource file:/usr/local/spark-1.6.3-bin-hadoop2.6/lib/spark-assembly-1.6.3-hadoop2.6.0.jar changed on src filesystem (expected 1530607524000, was 1478125561000解...原创 2018-07-08 21:28:14 · 1564 阅读 · 0 评论 -
MapReduce计数器
原文链接:http://itfish.net/article/61067.html1、MapReduce计数器是什么? 计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们可以在程序的某个位置插入计数器,记录数据或者进度的变化情况。2、MapReduce计数器能做什么? MapReduce 计数器(Counter)为我们提供一个窗口,用于观察 MapReduce Job 运行...转载 2018-04-13 09:04:48 · 342 阅读 · 0 评论 -
MapReduce运行机制
相关链接 MapReduce中Shuffle机制详解——Map端Shuffle链接 MapReduce中Shuffle机制详解——Reduce端Shuffle链接MapReduce将作业job的整个运行过程分为两个阶段:Map阶段和Reduce阶段。按照时间顺序包括:输入分片(input split)、map阶段、combiner阶段、shuffle阶段和reduce阶段。系统执行排序、将map输...转载 2018-04-13 09:01:08 · 465 阅读 · 0 评论 -
hadoop fs:du统计hdfs文件(目录下文件)大小的用法
hadoop fs:du统计hdfs文件(目录下文件)大小的用法hadoop fs 更多用法,请参考官网:http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html以下是我的使用统计文件时使用的记录:[t@dv00938 ~]$ hadoop fs -ls /jc_rc/rc_hive_db/llcfp转载 2018-01-27 15:45:14 · 36905 阅读 · 0 评论 -
统计HDFS文件数量,大小,以及在某范围大小的文件数量
统计HDFS文件数量大小,小于20M文件数量hadoop fs -du -h / # 统计文件大小hadoop fs -count / # 统计文件数量,返回的数据是目录个数,文件个数,文件总计大小,输入路径hadoop fs -ls -R /path/data | grep ^- > ~/data.txt #统计所有文件的信息,过滤文件夹,只统计文件.因为使用ls -l 之后,可以看到文转载 2018-01-27 15:39:21 · 3665 阅读 · 0 评论 -
用python + hadoop streaming 编写分布式程序(一) -- 原理介绍,样例程序与本地调试
原文地址:http://www.cnblogs.com/joyeecheung/p/3757915.html相关随笔: 点击打开链接Hadoop-1.0.4集群搭建笔记用python + hadoop streaming 编写分布式程序(二) -- 在集群上运行与监控用python + hadoop streaming 编写分布式程序(三) -- 自定义功能Map转载 2017-06-25 18:52:09 · 346 阅读 · 0 评论 -
windows下eclipse调试hadoop详解
1)下载Eclipsehttp://www.eclipse.org/downloads/Eclipse Standard 4.3.2 64位 2) 下载Hadoop版本对应的eclipse插件我的hadoop是1.0.4,因此下载hadoop-eclipse-plugin-1.0.4.jar下载地址:http://download.youkuaiyun.com/转载 2017-06-25 18:49:34 · 380 阅读 · 0 评论 -
MapReduce原理与设计思想
简单解释 MapReduce 算法一个有趣的例子你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃?MapReduce方法则是:给在座的所有玩家中分配这摞牌让每个玩家数自己手中的牌有几张是黑桃,然后把这个数目汇报给你你把所有玩家告诉你的数字加起来,得到最后的结论拆分MapReduce合并了两种经典函数:映射(M转载 2017-06-16 19:51:56 · 360 阅读 · 0 评论 -
大数据开发者应该知道的分布式系统 CAP 理论
无论你是一个系统架构师,还是一个普通开发,当你开发或者设计一个分布式系统的时候,CAP理论是无论如何也绕不过去的。本文就来介绍一下到底什么是CAP理论,如何证明CAP理论,以及CAP的权衡问题。CAP理论概述CAP理论:一个分布式系统最多只能同时满足一致性(Consistency)、可用性(Availability)和分区容错性(Partition tolerance)这三项中的两项。...转载 2019-01-22 23:45:15 · 327 阅读 · 0 评论