- 博客(107)
- 资源 (17)
- 问答 (3)
- 收藏
- 关注
原创 shell中浮点数比较大小
shell中浮点数比较大小$ a=2.3$ if [ `echo "$a < 2.0" |bc` -eq 1 ];then> echo "$a < 2.0"> else> echo "$a > 2.0"> fi>
2020-07-20 15:25:37
3899
原创 Linux下ls根据文件大小排序展示
Linux下根据文件大小展示按文件从大到小其是按照由大到小排序ls -Slorll -S如果想要从小到大:ls -Slror ll -Sr如果想要输入是按照“便于人类阅读的方式”,那么就再加一个-h,表示"–human-readable"。ll -Shor ll -Shr这样单位就是k或者M ,比较容易看清楚结果。如果想查看特定类型的文件,比如 excelll -Sh | grep xlsx割 ✂️✂️✂️✂️✂️✂️✂️✂️✂️后续遇到其他有用的用途
2020-06-12 14:46:11
1296
原创 LeetCode.601.Human_Traffic_of_Stadium
601.Human_Traffic_of_Stadiumhttps://leetcode.com/problems/human-traffic-of-stadium/Solution-for-3_or_more consecutive_visit_dateCreate table temp_visit_date select b.id, b.visit_date, b.people,...
2019-06-13 17:17:22
624
原创 LeetCode-262.Trips and Users
LeetCode-262.Trips and Users262.Trips and UsersSQL SchemaTable TripsTable UsersRequiementSolution262.Trips and Users原题链接:https://leetcode.com/problems/trips-and-users/SQL SchemaCreate table If Not...
2019-06-13 10:03:10
349
原创 Azkaban与阿里云EMR-数据开发对比结果
背景目前我司大数据部门使用的 ETL 调度工具是 Apache Azkaban,因为该服务会占用独立的机器,因此考虑迁移到阿里云的 EMR 上,因此在整体迁移之前,我们先做了一下作业配置和工作流调度方面的测试,看看目前 EMR 上的功能能否满足现有的ETL 调度需求。经过几天的文件迁移和工作流调度测试,对两个工具的对比情况进行了整理。Azkaban与阿里云EMR-数据开发对比结果Az...
2019-05-21 17:07:30
1602
转载 2019-03-13#Java中Joda高效处理时间
2019-03-13#Java中Joda高效处理时间在经历的所有的 Java日期处理库中,Joda 是一种令人惊奇的高效工具。无论您是计算日期、打印日期,或是解析日期,Joda都将是工具箱中的便捷工具。参考https://www.cnblogs.com/wihainan/p/5999771.html最常用时间处理DateTime dt = new DateTime();//昨天Da...
2019-03-13 17:19:05
345
原创 hive多分区写入
hive多分区写入-- 多分区写入set mapred.max.split.size=256000000;set hive.exec.dynamic.partition.mode=nonstrict;set hive.exec.max.dynamic.partitions=800;set hive.exec.max.dynamic.partitions.pernode=800;INS...
2019-02-22 14:54:14
3731
原创 2017-07-20#Hive Analytics Functions : row_number rank over
2017-07-20#Hive Analytics Functions : row_number rank over在做数据分析是,会统计用户访问app不同页面的开始时间,理论上同一个用户访问不同页面的开始时间应该不同。为了排查app端是否存在bug,用到row_number() over () 窗口函数。row_number oversql如下selecta.gu_id,startti...
2019-02-22 11:25:15
336
原创 我国大陆地区的手机号正则匹配
我国大陆地区的手机号正则匹配-- hive sql 测试通过select phone_num RLIKE "^(\\+?86)?((13[0-9])|(14[5,7])|(15[0-3,5-9])|(17[0,3,5-8])|(18[0-9])|161|166|198|199|(147))\\d{8}$"在线正则测试http://tool.oschina.net/regex#测试的时...
2019-02-22 10:28:45
874
原创 Hive 正则提取英文名称和中文名称
Hive 正则提取英文名称和中文名称提取英文名称select regexp_extract("Aptamil 爱他美(德国)",'([A-Z][a-z]*(\\s|$))+', 1);select regexp_extract("Skin 伊思",'(\\w*(\\s|$))+', 1);select regexp_extract("SKIN 伊思",'(\\w*(\\s|$))+',..
2018-11-12 16:51:30
9374
6
原创 2018-11-01#互联网科技日报
1.【字节跳动在印度推广App被诉 法院禁止冒用别家名称】字节跳动在印度推广“Helo”,居然以本地App“ShareChat”作为关键字投广告.ShareChat愤而起诉,称除广告问题外,自家产品的功能、观感和各种图标也被抄袭了!印度法院裁定,禁止字节跳动的冒用行为2.【小米滑板车遭Lyft滥用 致信要求和后者撇清关系】小米声称Lyft在关于共享电动滑板车业务的广告以及文件中引用了小米的品牌,...
2018-11-01 11:15:57
281
原创 2018-10#技术团队高效开发工具
技术团队高效开发工具团队中,开发工具不统一,遇到问题没有现成解决方案,需要花费额外的时间去处理。因此,有必要在组件团队的一开始,就统一开发工具。以下是很多国内乃至国外开发人员推荐比较多的工具,作为团队中核心基础。文章目录技术团队高效开发工具云笔记代码编辑器文本编辑器版本管理工具浏览器文件实时同步本地文件管理格式化JSON 格式化云笔记有道笔记官网印象笔记官网代码编辑器IDEA ...
2018-10-16 17:28:23
462
原创 2018-09-27#hive数据检查的常见方式
hive数据检查的常见方式主键上的数据是否用重复select phone_segment,count(1) as cntfrom dw.dim_phone_segment_info agroup by phone_segmenthaving cnt &gt; 1;对比去重前后的数据量select count(1), count(distinct phone_num) from dw...
2018-09-27 20:44:06
744
原创 2018-09-27#hive 表写入数据的方式
hive 表写入数据的方式少量数据 insert intocreate table dw.dim_area_code (country_name string comment "国家名称",country_code string comment "国家代码",province_name string comment "省份名称",city_name string comment "地级...
2018-09-27 18:12:17
2569
原创 大数据仓库分层
数据仓库分层ODS 与 DW我们的分层ODS 与 DW对于ODS层,一般大家都能够认同它是一种操作型比较强的、未保留历史或者保留近期历史的数据。所谓操作型,是相对分析型而言的。后者多是汇总的、便于分析统计的结构。操作型的另一个特点就是经常会被更新,而分析型数据很少如此。。我们的分层由于2B业务的原因,一个企业一个库,一个订单一张表,因此整体上数据存储比较杂乱。在同步时,我们另外加了一个 B...
2018-09-20 09:45:12
982
原创 hive 非分区表 导入csv数据
非分区表-- 示例1:use temp;drop table tmp_cuiwei_main_recommend;create table IF NOT EXISTS tmp_cuiwei_main_recommend( sml_sa_id int,sml_set_time int,sml_cancel_ti...
2018-05-03 16:25:12
575
原创 2018-04-28 hive 常用的日期函数
先看代码最后的私房先看代码## 当前日期和时间SELECT current_timestamp();-- 2018-04-28 11:46:03.136## 获取当前日期,当前是 2018-04-28SELECT current_date;ORSELECT current_date();-- 2018-04-28## 获取unix系统下的时间...
2018-04-28 15:02:05
1488
原创 gitbash https git credentials 小乌龟 TortoiseGit 配置备忘
gitbash https git credentials 配置备忘第1步找到配置第2步配置htps的证书第3步配置git账户信息访问验证小乌龟界面验证gitbash 更新代码小乌龟创建的配置文件gitbash https git credentials 配置备忘https://git-scm.com/docs/gitcredentials参考官方创建了 .git-credential
2017-11-07 18:54:46
1502
原创 hive-修改hive表字段的注释
修改hive表字段的注释修改之前hive> desc dw.fct_user_ctag_today;OKuser_id int 用户id user_tag int 精准化新老客标签 rpt_tag
2017-08-23 18:00:43
31951
原创 健康比什么都重要
健康比什么都重要做开发也不过5年多,但是现在越来越觉得体力不如以前了,每况日下。 经常听人说身体是革命的本钱,也经常有人说活久见,不管怎么样,健康的活的长久才有意义。今年的武汉,似乎有很多不安和躁动,哪怕是最近几天的新闻,也是什么被开除员工报复社会,还有同事的小区一位刚刚当爸爸的小伙子在跑步的过程中猝死。武汉的7月太热了,热到一点点都不想动,只想装死,好心静自然凉。
2017-07-29 22:58:49
1009
原创 硅谷之谜-工程师的五个等级
工程师的五个等级工程师的五个等级第五等的工程师第四等的工程师第三等的工程师第二等的工程师第一等的工程师 读《硅谷之谜》,取他人之长处,补己之不足。 本文主要内容摘自《硅谷之谜》,心得似乎只可意会。第五等的工程师是我们在前面提到的能够独立设计和实现一项功能的人。这是对工程师的基本要求,如果一个人只是懂一点工程实现的手段,需要别人告诉他怎么做,那最多算是助理工程师或者技工,不在我们
2017-07-25 21:05:31
3829
原创 Git Flow 咀嚼:git flow 对应的git实现
接触git flow也有很长一段时间了,中途偶尔用了一下,由于自己的手上的项目也不是大型项目,基本都是两三个人在做,master主要还是我自己,用git flow反而比较麻烦。也没有对这个原理进行深入理解。正好这段时间接手了一个项目,想试试git flow,然后就又了解了一下。git flow 的流程,可以用下面纯git命令来实现。
2017-07-25 18:26:40
520
原创 Hive Analytics Functions row_number rank over partition by
Hive Analytics Functions row_number rank over partition by
2017-07-20 15:20:12
694
原创 hive weekofyear 怪异的姿势
hive weekofyear : Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing row
2017-07-19 19:58:56
1248
原创 org.apache.hadoop.mapreduce.task.reduce.Shuffle error in shuffle in fetcher
org.apache.hadoop.mapreduce.task.reduce.Shuffle error in shuffle in fetcher 分析及方案
2017-07-19 14:11:29
6120
1
原创 硅谷之谜
硅谷的奇迹不在于它产生的GDP 有多高、技术有多领先,而在于它不断地创造卓越,这既包括那些改变世界的伟大公司、超一流的大学,也包括那些拥有世界情怀的理想主义者。硅谷的奇迹还在于,自诞生以来,硅谷在历次技术革命中都没有落伍。这些才是硅谷独一无二的地方。那么是什么造就了硅谷的成功呢?
2017-07-18 14:15:40
1430
1
原创 Scala Iterator(迭代器)
Scala Iterator(迭代器)不是一个集合,它是一种用于访问集合的方法。 迭代器 it 的两个基本操作是 next 和 hasNext。 调用 it.next() 会返回迭代器的下一个元素,并且更新迭代器的状态。 调用 it.hasNext() 用于检测集合中是否还有元素。 让迭代器 it 逐个返回所有元素最简单的方法是使用 while 循环:object IteratorDemo
2017-07-07 14:56:16
611
原创 Scala 字符串插值: s插值
val pageLevelId = 3val pageLevelName = "entrance"val funnel = Map(2 -> List(11111), 4 -> List(7), 3 -> List(402, 403), 5 -> List(1572, 1574))val bg = s"$pageLevelName.page_id = 254" :: s"$pageLevelN
2017-07-07 11:22:50
2921
原创 Scala JDBC 查询和更新MySQL
Scala JDBC 查询和更新MySQL完整代码如下package com.biimport java.sql.{Connection, DriverManager, Timestamp}import java.util.Calendar/** * Created by gongzi on 2017/6/28. */object MySqlConn { // for test en
2017-07-07 09:34:53
2715
原创 Scala File 文件操作
写文件package com.biimport java.io.{File, PrintWriter}/** * Created by gongzi on 2017/6/30. */object FileHandler { def fileWriter(fileName: String, content: String): Unit = { val writer = new P
2017-07-07 09:29:25
3184
原创 scala 枚举类
object PageLevel extends Enumeration{ type PageLevel = Value val entrance = Value(1) val entrance2, guide, guide2, before_goods, goodsPage, shoppingCart, userPay = Value}第1行:通过type定义枚举类型的别名 第2行
2017-07-06 20:19:00
670
原创 shell 两个日期之间循环
shell 日期循环#!/bin/bashif [ $# == 2 ]; then datebeg=$1 dateend=$2else echo "请输入开始时间和结束日期,格式为2017-04-04" exit 1fitStart=$(date +%s)THIS="$0"THIS_DIR=`dirname "$THIS"`cd ${THIS_DIR}beg_
2017-07-05 18:14:32
2760
Git for Windows x64 2017年8月更新
2017-08-22
Git for Windows 32位 2017年8月更新
2017-08-22
Visual Studio Code 完美的免费的code编辑器
2017-06-15
Git-2.12.2.2-32-bit Git for Windows 2017 32位
2017-04-11
Git for Windows 2017 绿色最新版
2017-03-04
freemind1.0最新版思维导图软件 开源 免费 上手快
2011-06-17
Validator表单的验证整理
2011-03-22
Extjs3.3 中文 chm格式
2011-03-22
HQL语法大全,并带有详细的例子
2011-03-22
AJAX实例入门讲解
2010-10-28
大家在Scala项目开发过程中,感觉那个Scala ORM框架比较好?具体是怎么用的?
2017-07-07
TA创建的收藏夹 TA关注的收藏夹
TA关注的人