hadoop
半夏茶白
别着急,在变好
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据hadoop集群搭建
安装一个Linux系统 配置网卡 重启网络服务 ping baidu 修改主机名 关闭防火墙 安装ssh客户端 克隆Linux系统 对克隆好的系统配置网卡 ssh链接及免密登录 安装JDK 安装hadoop share中doc可删除 - vi /etc/hadoop/hadoop-env.sh JAVA_HOME在哪里 - export JAVAHOME改为绝对路...原创 2018-08-19 17:59:51 · 2822 阅读 · 1 评论 -
MapReduce自定义分区、分组、排序-movie数据案例(案例四)
数据{“movie”:”1193”,”rate”:”5”,”timeStamp”:”978300760”,”uid”:”1”} {“movie”:”1193”,”rate”:”4”,”timeStamp”:”978300760”,”uid”:”1”} {“movie”:”1193”,”rate”:”2”,”timeStamp”:”978300760”,”uid”:”1”} {“movie...原创 2018-08-25 09:05:16 · 619 阅读 · 0 评论 -
Hive启动方式
方式一:直接使用 进入hive安装目录下执行 bin/hive 或者配置了环境变量,在任意窗口下执行hive 设置一些基本参数,让hive使用起来更便捷,比如: 让提示符显示当前库: hive>set hive.cli.print.current.db=true; 显示查询结果时显示字段名称: hive>set hive.cli.pr...原创 2018-08-29 11:26:21 · 17676 阅读 · 0 评论 -
双MapReduce框架文件倒排索引案例(案例三)
需求创建三个文件,放在同一文件夹下,求文件中每个单词在各个文件中出现的频率,输出格式为: I a.txt 1,b.txt 1,c.txt 1 amin a.txt 1,c.txt 1 coco a.txt 1 hello a.txt 2,b.txt 2,c.txt 2需求分析Map1—>I-a.txt 1 ...原创 2018-08-24 19:41:26 · 411 阅读 · 0 评论 -
双MapReduce框架求共同好友案例(案例二)
数据需求 求出某两个人的共同好友 分析:第一个Map将数据处理为 B A 的格式输出 C A D A E A 第...原创 2018-08-24 19:21:50 · 288 阅读 · 0 评论 -
使用sqoop进行hive与传统数据库之间的导入、导出数据
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。一、sqoop的安装sqoop安装http://sqoop.apache.or...原创 2018-08-31 20:25:35 · 1851 阅读 · 0 评论 -
使用MapReduce框架做词频分析案例(案例一)
在使用MapReduce框架编写程序时,对于MapReduce的key-value,输入输出数据,只能使用Hadoop提供的数据类型,不能使用Java的基本数据类型,例如long-LongWritable,int-IntWritable,String-Text等。在节点间的内部通讯使用的是RPC,RPC协议把消息翻译成二进制字节流发送到远程节点, 远程节点再通过反序列化把二进制流转成原始的信...原创 2018-08-24 16:19:51 · 2480 阅读 · 0 评论 -
hdfs上单机版词频分析小案例
需求: 统计hdfs上某个文件中词频个数,并将统计结果存储到hdfs上的另一个文件中需求分析: 连接hdfs,从hsfs上读取文件,按行读取; 将读取到的数据按空格切割字符串,分割单词; 遍历分割后的字符串数组,使用map函数去重,统计词频个数; 遍历map中数据,循环将每一条数据写入hdfs上的某个文件中; 在hsfs上使用 hadoop fs ...原创 2018-08-21 11:23:06 · 273 阅读 · 0 评论 -
数据仓库Hive的安装和配置
1.上传hive文件并解压(1)hive及hive安装配置所需jar包:链接:https://pan.baidu.com/s/1BMHPjvGjf4VDdsxPtIF8Ww 密码:kkja (2)将上面链接中的文件上传到虚拟机Linux中,上传步骤详情请见:https://blog.youkuaiyun.com/amin_hui/article/details/81837257 (3)解压文件到相应目...原创 2018-08-28 10:10:56 · 473 阅读 · 0 评论 -
HDFS的JavaAPI操作
一、搭建环境开发1.下载maven压缩包,解压2.在eclipse中配置maven(1)windows > preferences > maven > installation > add > 将解压完的maven添加进去 点击apply 在maven解压目录下找到/conf/settings.xml文件,修改本地...原创 2018-08-20 21:07:38 · 294 阅读 · 0 评论 -
HDFS的工作机制
一、Hdfs的工作机制1.hdfs读数据流程(1)步骤图(2)详细步骤解析 a.客户端将要读取的文件路径发送给namenode; b.namenode获取文件的元信息(主要是block的存放位置信息)返回给客户端; c.客户端根据返回的信息找到对应的datanode发送请求连接,读取文件的请求; d.datanode将数据传输给客户端; e.客户端逐...原创 2018-08-20 20:32:48 · 494 阅读 · 0 评论 -
MapReduce框架使用小顶堆求评分均分前20条记录案例---movie案例
数据{“movie”:”1193”,”rate”:”5”,”timeStamp”:”978300760”,”uid”:”1”} {“movie”:”661”,”rate”:”3”,”timeStamp”:”978302109”,”uid”:”1”} {“movie”:”914”,”rate”:”3”,”timeStamp”:”978301968”,”uid”:”1”} {“movie”:...原创 2018-08-27 22:00:56 · 322 阅读 · 0 评论 -
MapReduce框架实现两个文件之间的Join
数据(1)电影评分数据用户ID::电影ID::评分::时间 1::1193::5::978300760 1::661::3::978302109 1::914::3::978301968 1::3408::4::978300275 1::2355::5::978824291 1::1197::3::978302268 1::1287::5::978302039…….(2)...原创 2018-08-27 20:59:25 · 1612 阅读 · 0 评论 -
Log4j产生的日志文件上传到hdfs集群上
需求:将log4j产生的日志文件上传到hdfs集群上,清理超过24小时的文件,保留24小时以内的文件1.产生日志public class MoreLog { public static void main(String[] args) throws Exception { Logger logger = LogManager.getLogger(MoreLog....原创 2018-08-22 19:49:05 · 1432 阅读 · 0 评论 -
Yarn工作原理及MapReduce工作流程
yarn工作原理图详细描述1:开发机器Driver请求运行一个job,原创 2018-08-25 15:57:07 · 699 阅读 · 0 评论
分享