- 博客(7)
- 收藏
- 关注
原创 hive 运行mapreduce任务报错
近期由于公司大数据集群有很多历史遗留顽疾,进行了新旧集群的数据迁移。 前期进行了大数据新集群的搭建,接下来在跑hive任务的时候,发现了一个让人头痛的问题。可以看一下执行sql select substr(even_ttime,0,10) from ods_ods.ods_ods_ishare_log发现直接就报错。然后查看yarn的运行日志如下: 顿时一脸懵逼,因为上面的报错class是缺少其中的哪一个根本就不知道,在排查的过程中,1、...
2020-05-11 16:15:00
938
1
原创 HBASE中incrementColumnValue方法联合hive相应的坑
最近在项目开发中遇到了一个使用hbase计数器对实时数据进行计数发生的问题。花了老长时间,必须得记录下来,希望能帮到一些开发者。 业务背景是需要计算各个车场的车流进出的数据。在这个场景下想到用HBASE的incrementColumnValue方法会很好的对车流的进出进行一个计数,最后达到一个实时计算出车流各项指标的效果。 首先你以为hbase与hive的外部表集成很友好...
2019-12-18 18:07:56
1959
原创 python 解压各种类型的压缩包&遍历文件夹文件优化
用python遍历文件夹的时候,由于文件夹会包括文件夹的情况,很多人刚开始会想到的是递归遍历,于是去网上搜索遍历的方法,结果出现很大一串代码,递归调用,结果试了半天还晕头转向,还需要加以验证,其实python有一个十分快捷的方法,不得不说这就是越来越多的人开始用python的原因 path1 = glob.glob(unzip + '\**',recursive=...
2018-11-22 17:07:40
3462
1
原创 ubantu中C编译器存在但是无法使用问题
在昨天准备做一个大数据项目的时候,需要用到nginx的,于是进行安装编译但是出现这样的问题:执行的./configure进行编译的时候- >安装nginx时,。/ configure:错误:找不到C编译器cc这个问题是因为nginx的需要通过Ç编译器对其进行编译,但是没有找到Ç编译器这个问题百度你可以找到大众的方法,那就是安装Ç编译器,安装其依赖或者还有问题就将GCC软连...
2018-10-22 15:00:42
954
原创 python处理excel文档(删除、保存、关闭)
之前在工作中使用python处理excel的时候,要用到python对excel表格中的数据全部删除,因此在网上找资料,但是随便一搜你会看到很多处理excel的方法库,比如pandas、win32com、openpyxl。但是大都不是很准确,总是掺杂一些其他操作不简易,很苦恼。后来找到这个-->https://blog.youkuaiyun.com/syk_cndn/article/...
2018-09-27 10:17:15
25534
5
原创 Java8中HashMap三大步骤解惑
Java中有很多重点,其中HashMap就是考查一个程序员基础的一个重点,所以在这里记录一下自己学习HashMap时产生的一些疑问跟最后的思路整理。 首先参考大婶的博客(https://blog.youkuaiyun.com/login_sonata/article/details/76598675) 了解HashMap的人都知道其中会有三个重要的步骤 1、取hash值 2、高位运...
2018-04-08 18:40:11
234
原创 hadoopcdh5大数据集群的搭建
很久之前帮公司搭建了一个hadoopCDH5的demo,现在把详细搭建过程分析一下。因为自己搭了很多遍,因此可以说搭建说明还是很完备的,可以帮助大家借鉴一下嘿嘿,废话不多说,先上:一、软件环境准备1、在Oracle官网下载(网址: http://cn.ubuntu.com/download/)下载版本: Ubuntu 16.04 LTS(长期支持)版本2、安装VMware,直接在百度软件中...
2018-03-28 17:04:16
993
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人