- 博客(7)
- 收藏
- 关注
原创 hive做离线分析时间截取思路
计算天新增时间思路:拿出当天的时间进行格式化,拿到零点,例如2019/3/12 22:21 变成 2019/3/12 00:00 就是这天的开始时间。拿到这天的时间后用Calendar 日历在天的基础上加一就是今天的结束时间 2019/3/13 00:00,只要在这两个时间段之间的就是今天新增的。代码: /** *计算某天的起始时刻(毫秒数) *...
2019-03-12 22:48:59
537
原创 spark checkpoint
checkpoint 前提条件迭代计算,要求保证数据安全对速度要求不高(跟cache到内存进行对比)将中间结果保存到hdfs步骤:设置checkpoint目录(分布式文件系统的目录hdfs目录)sc.setCheckpointDir(“hdfs://s201:9000/ck2019”)经过复杂进行,得到中间结果将中间结果checkpoint到指定的hdfs目录后续的计算,就...
2019-03-12 22:10:08
246
原创 hbase学习总结
一 .基础整理服务器本身不存储数据,数据本身放在HDFS中的,服务器只做功能的进行查,删改等功能Hive hbase mysql 区别服务器本身不存储数据,数据本身放在HDFS中的,服务器只做功能的进行查,删改等功能Hbase特性16010 对外访问端口HBASE是一个数据库----可以提供数据的实时随机读写Hbase:hadoop数据库,分布式...
2019-02-27 16:20:16
419
原创 hive知识点
hive的基本思想hive是基于Hadoop的一个数据仓库工具(离线),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。hadoop处理结构化数据的数据仓库不是关系型数据库,不适合OLTP在线事务处理,例如银行不适合实时查询和行级更新。总结:hive具有sql数据库的外表,但应用场景完全不同,hive只适合用来做批量数据统计分析Hive的特点可扩展Hive...
2019-02-14 09:09:08
197
原创 MapReduce知识点总结
一.nodemanager配置问题资源总量cpu core 8 内存8g 这个是默认的可以进行更改,这是资源上限真是内存只有2G,你启动容器的时候,可能会起不来,内存不足,会出现问题,如果你把内存配成1个G你真实内存只有2G,去掉机器占的,你启动mr程序会报错,因为你开辟的空间不够。mrappmaster默认最小参数是1.5G所以启动的时候可能报错,启动不起来。nodemanager...
2019-02-13 10:03:58
738
原创 HDFS知识点
HDFS最近学习总结一. hdfs整体运行机制:客户把一个文件存入HDFS中,其实HDFS会把文件切成块进行存储,会分散存储到N台Linux系统中(存储文件块的角色是:datanode)(重要的是切块的行为是由客户端决定的)一旦文件被切块切块存储,HDFS一定要有个机制,需要记录每一个文件的切块信息和每个切块具体的存储机器。(记录块信息的是namenode)需要保证数据的安全性...
2019-02-12 18:27:21
306
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人