
工欲善其事,必先利其器
夜雨滴空阶
浮躁一分,到处遍招尤悔;因循二字,从来误尽英雄
展开
-
Python核心编程学习-Regular Expressions
Python核心编程的阅读笔记原创 2016-11-22 17:30:05 · 328 阅读 · 0 评论 -
hivesql 效率优化
1.group by 数据倾斜问题 hive是根据group by 的key进行数据分发的,某个key相同的数据太多的会被分发到一个reducer上,key的数据分布不均匀会导致大量数据被shuffle到某个或者某些reducer上,出现严重的数据倾斜,使得数据计算变慢 配置任务参数 set hive.groupby.skewindata=true; 原理:该配置会触发h...原创 2018-03-23 15:39:48 · 1000 阅读 · 0 评论 -
python之pandas分组统计
pandas 分组统计求占比原创 2017-11-16 17:35:49 · 10991 阅读 · 1 评论 -
MySQL查询优化技巧之二
Mysql 查询优化技巧原创 2017-08-31 11:48:17 · 379 阅读 · 0 评论 -
Mysql查询语句技巧之一
在工作中能在遇到具体查询问题的时候多思考,必能提高自己的能力原创 2017-08-31 11:08:51 · 394 阅读 · 0 评论 -
hivesql优化技巧之一 mapjoin
mapjoin可以优化两种场景下的数据join: 1.有一张表很小 2.不等值的链接操作原创 2017-08-30 16:17:33 · 924 阅读 · 0 评论 -
《soft skills》阅读有感工作
《soft skill》阅读有感原创 2017-07-05 18:19:30 · 541 阅读 · 0 评论 -
使用awk对广告数据中bid、imp中的ip做运营商分类统计
使用awk做数据分析的日常工作感觉很不错!原创 2017-07-14 16:52:37 · 1898 阅读 · 0 评论 -
ping网站网址定时发送邮件任务
通过shell脚本监测ping状态和定时发送邮件原创 2017-06-07 10:14:25 · 2058 阅读 · 0 评论 -
使用python自动化处理三方数据入库工作
python自动化日常工作原创 2017-06-16 15:18:20 · 2218 阅读 · 0 评论 -
Linux 脚本中使用变量的几个问题
主要梳理了一下LINUX SHELL中不同变量类型的具体含义和使用方法,环境变量,本地变量,位置变量等原创 2017-03-14 16:47:45 · 1607 阅读 · 0 评论 -
Linux 正则表达式(regular expression)
LINUX SHELL正则表达式使用有感原创 2017-03-28 10:37:49 · 634 阅读 · 0 评论 -
双系统安装
双系统安装,迁移window下的工作到Linux原创 2017-03-21 11:19:38 · 461 阅读 · 0 评论 -
如何理解逻辑表和物理表
在工作中有些平台需要对物理表进行逻辑处理,平台的功能基于逻辑表进行进一步拓展,逻辑表和物理表的概念如下:物理表:物理表是具体某个数据源中的一张表。对于mysql就是一个table,对于Hbase可以是一张hbase表,对于ES是一个索引。mysql, Hbase和ES这些物理表必须要有合理的key。特殊的物理表不含有key逻辑表:逻辑表可以理解为数据库中的视图,是一张虚拟表。可以映射到一张物理表,...原创 2018-04-01 14:02:06 · 25819 阅读 · 0 评论