
【Hadoop】
Hadoop
小小工匠
show me the code ,change the world
展开
-
大数据文件分隔符
hadoop 文件分隔符原创 2015-12-18 10:14:19 · 20248 阅读 · 0 评论 -
Hdfs 导入Hive,时间相关的字段 导入后为NULL
CREATE TABLE OFFER_${day_id}(OFFER_ID BIGINT,ATOM_ACTION_ID BIGINT,PARTY_ID BIGINT,OFFER_SPEC_ID BIGINT,OFFER_NBR STRING,AREA_ID INT,MKT_ACTIVITY_ID BIGINT,START_DT STRING,END_原创 2015-12-18 10:54:10 · 14890 阅读 · 3 评论 -
HIVE 查询显示列名 及 行转列显示
进入hive模式:set hive.cli.print.header=true; // 打印列名 set hive.cli.print.row.to.vertical=true; // 开启行转列功能, 前提必须开启打印列名功能 set hive.cli.print.row.to.vertical.num=1; // 设置每行显示的列数原创 2015-12-21 16:24:42 · 18087 阅读 · 0 评论 -
Shell遍历hadoop目录的批量操作
需求背景每天产生3T(约2.5W个gz压缩文件)的DPI日志文件,因存储等各种问题,需要尽可能的节约存储。日志文件中有26个字段,根据业务需求需要提取6个字段。解决方法通过shell脚本通过MR程序(推荐,本篇不做论述)结论: 经验证得出的结论shell脚本大约5~10S处理一个文件,比较慢,对于这样大量且分散的情况,不推荐,但可以提供一个思路。 根据实际情况处理步骤原创 2016-01-05 09:25:19 · 16245 阅读 · 1 评论 -
Shell-通过shell启动Java类中的main方法 + 通过Shell启动jar包
Java程序 运行在linux主机上, 通过shell脚本启动为进程。 Java程序中 通过定时任务,设置访问Hbase的时间间隔,设置告警规则,比如三次获取Hbase中的数据失败,则调用存过,遍历配置的告警号码,插入短信中间表,实现短信的发送。 项目结构如下 启动脚本分析根据服务器上JDK 以及工程部署路径 修改相应的#JDK所在路径 APP_HOME 启动入口类APP_MAI原创 2015-12-11 02:34:45 · 14299 阅读 · 0 评论