説散就散-优快云博客

原创 hive 运行mapreduce任务报错

近期由于公司大数据集群有很多历史遗留顽疾，进行了新旧集群的数据迁移。前期进行了大数据新集群的搭建，接下来在跑hive任务的时候，发现了一个让人头痛的问题。可以看一下执行sql select substr(even_ttime,0,10) from ods_ods.ods_ods_ishare_log发现直接就报错。然后查看yarn的运行日志如下：顿时一脸懵逼，因为上面的报错class是缺少其中的哪一个根本就不知道，在排查的过程中，1、...

2020-05-11 16:15:00 1008 1

原创 HBASE中incrementColumnValue方法联合hive相应的坑

最近在项目开发中遇到了一个使用hbase计数器对实时数据进行计数发生的问题。花了老长时间，必须得记录下来，希望能帮到一些开发者。业务背景是需要计算各个车场的车流进出的数据。在这个场景下想到用HBASE的incrementColumnValue方法会很好的对车流的进出进行一个计数，最后达到一个实时计算出车流各项指标的效果。首先你以为hbase与hive的外部表集成很友好...

2019-12-18 18:07:56 2005

原创 python 解压各种类型的压缩包&遍历文件夹文件优化

用python遍历文件夹的时候，由于文件夹会包括文件夹的情况，很多人刚开始会想到的是递归遍历，于是去网上搜索遍历的方法，结果出现很大一串代码，递归调用，结果试了半天还晕头转向，还需要加以验证，其实python有一个十分快捷的方法，不得不说这就是越来越多的人开始用python的原因 path1 = glob.glob(unzip + '\**',recursive=...

2018-11-22 17:07:40 3534 1

原创 ubantu中C编译器存在但是无法使用问题

在昨天准备做一个大数据项目的时候，需要用到nginx的，于是进行安装编译但是出现这样的问题：执行的./configure进行编译的时候- >安装nginx时，。/ configure：错误：找不到C编译器cc这个问题是因为nginx的需要通过Ç编译器对其进行编译，但是没有找到Ç编译器这个问题百度你可以找到大众的方法，那就是安装Ç编译器，安装其依赖或者还有问题就将GCC软连...

2018-10-22 15:00:42 1028

原创 python处理excel文档(删除、保存、关闭)

之前在工作中使用python处理excel的时候，要用到python对excel表格中的数据全部删除，因此在网上找资料，但是随便一搜你会看到很多处理excel的方法库，比如pandas、win32com、openpyxl。但是大都不是很准确，总是掺杂一些其他操作不简易，很苦恼。后来找到这个-->https://blog.youkuaiyun.com/syk_cndn/article/...

2018-09-27 10:17:15 25647 5

原创 Java8中HashMap三大步骤解惑

Java中有很多重点，其中HashMap就是考查一个程序员基础的一个重点，所以在这里记录一下自己学习HashMap时产生的一些疑问跟最后的思路整理。首先参考大婶的博客(https://blog.youkuaiyun.com/login_sonata/article/details/76598675) 了解HashMap的人都知道其中会有三个重要的步骤 1、取hash值 2、高位运...

2018-04-08 18:40:11 273

原创 hadoopcdh5大数据集群的搭建

很久之前帮公司搭建了一个hadoopCDH5的demo，现在把详细搭建过程分析一下。因为自己搭了很多遍，因此可以说搭建说明还是很完备的，可以帮助大家借鉴一下嘿嘿，废话不多说，先上：一、软件环境准备1、在Oracle官网下载(网址: http://cn.ubuntu.com/download/)下载版本: Ubuntu 16.04 LTS(长期支持)版本2、安装VMware,直接在百度软件中...

2018-03-28 17:04:16 1046

qq_36928258的博客