Hadoop
.
海洋 之心
图神经网络-大数据-推荐系统研究者,专注于计算机领域前沿技术的分享等人工智能算法研究工作
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive创建分区表常用指令
创建分区表create table dept_partition(deptno int, dname string, loc string)partitioned by (month string)row format delimited fields terminated by '\t';加载数据到分区表中load data local inpath '/opt/module/datas/dept.txt' into table dept_partition partition(month原创 2021-04-30 10:22:21 · 3965 阅读 · 0 评论 -
Kafka-HBase-MapReduce-Mysql 连接实践 通话记录
1.项目介绍本项目采用的数据为通话记录数据,例(张三 李四 2021-4-23 12:32:13 2942)意思是张三在2021-4-23 12:32:13这个时间给李四通话,通话时长为2942秒数据来源【程序自己模拟数据的产生,交给Kafka的生产者】Kafka的消费者端接的是HBase数据库MapReduce读取HBase中的数据进行分析再将分析的数据导入MySQL2.各类介绍Produce模块DataProduce:主要负责生产数据Main:函数的入口testAPI:进行功原创 2021-04-27 18:20:28 · 922 阅读 · 6 评论 -
有一个日志文件visitlog.txt,其中记录了用户访问网站的日期和访问的网站地址信息,每行一条记录。要求编写mapreduce程序完成以下功能: 1、 将不同访问日期的访问记录分配给不同的red
题目描述:有一个日志文件visitlog.txt,其中记录了用户访问网站的日期和访问的网站地址信息,每行一条记录。要求编写mapreduce程序完成以下功能:1、 将不同访问日期的访问记录分配给不同的reduce task(假设只有3个不同日期),而且结果要按照网站网址的字典序降序排序2、 以1)的结果作为输入,按日期统计访问量最高的3个网站3、 以1)的结果作为输入,统计所有日期中访问量最高的3个网站代码在这里...原创 2021-04-25 17:08:37 · 909 阅读 · 1 评论 -
ZooKeeper学习:服务器动态上下线案例分析
## ✌✌✌古人有云,好记性不如烂笔头,千里之行,始于足下,每日千行代码必不可少,每日总结写一写,目标大厂,满怀希望便会所向披靡,哈哈哈!!!✌✌✌一、✌题目要求> 动态监视服务器上下线的过程二、✌代码实现1.✌Server服务器类public class Server { private static String connectString = "hadoop151:2181,hadoop152:2181,hadoop153:2181"; private stati原创 2021-03-21 14:54:55 · 419 阅读 · 2 评论 -
Hadoop学习:MapReduce实现WordCount经典案例
## ✌✌✌古人有云,好记性不如烂笔头,千里之行,始于足下,每日千行代码必不可少,每日总结写一写,目标大厂,满怀希望便会所向披靡,哈哈哈!!!✌✌✌一、✌题目要求> 统计文本中每个单词的数量二、✌实现思想> Map阶段默认输入为TextInputFormat,键值对对应为行的偏移量和每行的文本内容> 在map函数中将每行文本进行切分,提取出每个单词> 在Reduce阶段根据相同Key值进行累加求和> 三、✌代码实现1.✌Map类public class原创 2021-03-21 08:25:10 · 532 阅读 · 0 评论 -
Hadoop学习:MapReduce实现文件的解压缩
## ✌✌✌古人有云,好记性不如烂笔头,千里之行,始于足下,每日千行代码必不可少,每日总结写一写,目标大厂,满怀希望便会所向披靡,哈哈哈!!!✌✌✌一、✌实现思想压缩> 获取输入流> 获取压缩相关信息(反射)> 获取输出流> 流的对拷> 关闭资源解压缩> 校验文件是否可以解压> 获取输入流> 获取输出流> 流的对拷> 关闭资源二、✌代码实现1.✌compress压缩方法public static void co原创 2021-03-20 16:42:59 · 1356 阅读 · 2 评论 -
Hadoop学习:MapReduce实现倒排索引
## ✌✌✌古人有云,好记性不如烂笔头,千里之行,始于足下,每日千行代码必不可少,每日总结写一写,目标大厂,满怀希望便会所向披靡,哈哈哈!!!✌✌✌一、✌题目要求文件1:a.txt文件2:b.txt文件3:c.txt最终输出格式:二、✌实现思想> 首先在map阶段,获得每个单词所在的文件名称> 然后在方法中,每个单词作为Key,所在文件名称+1作为Value> 在Reduce阶段,针对每个Key,对他们的Value迭代,将Value切割获得个数,不断累加>原创 2021-03-20 16:30:35 · 764 阅读 · 0 评论 -
Hadoop学习:MapReduce实现两张表合并
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、思想二、代码1.Bean类2.Map类3.Reduce类4.Driver类前言一、思想示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、代码1.Bean类import org.apache.hadoop.io.Writable;import java.io.DataInput;import java.io.DataOutput;import java.io.IO原创 2021-03-19 17:40:05 · 1169 阅读 · 6 评论 -
Hadoop学习:MapReduce不使用Reduce将表合并提高效率
✌✌✌古人有云,好记性不如烂笔头,千里之行,始于足下,每日千行代码必不可少,每日总结写一写,目标大厂,哈哈哈!!!✌✌✌一、✌题目要求record表:ID城市编号空气指数001032450020265500305743004042460050295600601637007058310080368300902349city表:城市编号城市名称01长沙02株洲原创 2021-03-19 20:54:03 · 483 阅读 · 0 评论
分享