- 博客(354)
- 资源 (11)
- 问答 (1)
- 收藏
- 关注

原创 Presto 源码分析 (1) - 一条 sql 在 presto 内如何被执行
由于方法栈调用顺序较深, markdown 不好展示,故使用 yml 来展示. 详情请看 : 一条sql如何被presto执行.yml https://github.com/leoChaoGlut/presto-research/blob/master/presto-research-doc/%E4%B8%80%E6%9D%A1sql%E5%A6%82%E4%BD%95%E8%A2%ABp
2018-01-23 11:35:34
2678
转载 Ambari 自定义 Alert
原文: https://www.ibm.com/developerworks/cn/opensource/os-cn-bigdata-ambari3/Ambari 最新动态2015 年,Ambari 发展的比较快,最新的发布版本已经是 2.1.1,而且马上将要发布 2.1.2 版本。与之前版本相比较,Ambari 增加了对一些最新版本操作系统的支持,同时也不再支持一些过时版本的操作系统。例如不...
2020-02-29 11:51:04
853
原创 superset 使用 presto 获取数据缓慢问题解决
排查思路1.使用 traceback.print_stack() 加入到pyhive源码中,如 venv/lib/python3.6/site-packages/pyhive/presto.py 的 _process_response方法2.superset界面上执行任意sql3.superset控制台打印出调用_process_response的方法栈4.根据方法栈,追踪到time.sl...
2020-02-27 17:25:35
1676
2
原创 DDD 抽象概念清晰定义
战略建模域限界上下文映射方式:更详细的描述请看<实现领域驱动设计> 第3章,80 页合作关系(Partnership):两个上下文紧密合作的关系,一荣俱荣,一损俱损。共享内核(Shared Kernel):两个上下文依赖部分共享的模型。客户方-供应方开发(Customer-Supplier Development):上下文之间有组织的上下游依赖。遵奉者(Confor...
2019-11-11 18:05:25
1274
原创 JavaParser 无法解析链式调用的问题
当解析链式调用时,如:“ClassA.getClassB().methodB()”.尽管预先在JavaParserFacade中,添加了所有必须的JarTypeSolver,包括ClassB所在的Jar包.并且debug确认JavaParser已成功添加ClassB所在的JarTypeSolver.解析到"ClassA.getClassB().methodB()“这样的链式调用时,还是会报"...
2019-10-24 14:19:44
13867
转载 如何用简单例子讲解 Q - learning 的具体过程?
作者:牛阿 链接:https://www.zhihu.com/question/26408259/answer/123230350 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。2017年06月05日更新,最近重写了一遍代码,Flappy Bird Q-learning。你可以在这里试着训练一下,加到最大帧数,在一两分钟内就可以达到10+的分数。原答案:最近看
2018-02-28 14:15:44
2289
原创 使用强化学习完成迷宫搜索
使用 Q Learning 完成了一个迷宫搜索的小程序源码: https://github.com/leoChaoGlut/machine-learning-practice/tree/master/reinforcement-learning/q-learning/maze
2018-02-28 14:13:51
5716
原创 presto 插件开发
完整demo: https://github.com/leoChaoGlut/presto-research/tree/master/presto-research-plugin开发步骤pom.xml 中填加 dependencies com.facebook.presto:presto-spibuild plugin com.facebook.presto:presto-ma
2018-01-25 11:45:56
2860
转载 JSR133中文版
原文链接 译文链接 翻译:丁一 下载:JSR133中文版本文是JSR-133规范,即JavaTM内存模型与线程规范,由JSR-133专家组开发。本规范是JSR-176(定义了JavaTM平台 Tiger(5.0)发布版的主要特性)的一部分。本规范的标准内容将合并到JavaTM语言规范、JavaTM虚拟机规范以及java.lang包的类说明中。本JSR-133规范将不再通过JC
2018-01-24 09:50:02
793
原创 解决 Azkaban Executor 启动后不会自动激活
Intro通过翻看 Azkaban Executor Server 源码,发现 Executor 提供了 rest 接口,来手动激活 Executor. 为什么不在 Executor 启动时自动激活呢….官方 issue110 解释如下:We don't update prior to web-server start.Let me introduce how we do a regular Ex
2017-12-25 12:01:04
6415
原创 Ambari 整合 Azkaban
详情: https://github.com/leoChaoGlut/ambari-azkaban-service/blob/master/README.md
2017-12-24 13:50:38
1998
3
原创 Ambari 整合 Presto
详情: https://github.com/leoChaoGlut/ambari-presto-service
2017-12-24 13:49:57
1379
转载 Kaggle如何入门
作者:机器之心链接:https://www.zhihu.com/question/23987009/answer/203051669来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。Kaggle 是一个流行的数据科学竞赛平台,已被谷歌收购,参阅《业界 | 谷歌云官方正式宣布收购数据科学社区 Kaggle》。作为一个竞赛平台,Kaggle 对于
2017-12-19 09:25:29
907
原创 Presto ETL SQL 执行框架
简介:仅适用于 presto之前模仿 sqoop 的功能,写了一版 presto-extract,但发现并不好用,于是跳出 sqoop 的思维,重新写了一版该版本的职责: 负责顺序调用 sql一个负责提供占位参数的 placeholders.sql从 placeholders.sql 获取参数,并填充到顺序调用的 sql 中提供循环 sql 调用根据脚本入参,可保存需要保存的 pla
2017-11-22 17:34:05
1984
原创 OrientDB 踩坑记录
子查询得到的结果默认是 Collection, 判断相等的时候需要先调用 FIRST(subQuery) 方法(或其它方法),否则会出现等式判断错误. 正确: SELECT FROM Person WHERE name = FIRST((SELECT name FROM Person))错误: SELECT FROM Person WHERE name = (SELECT name FROM P
2017-11-16 20:08:06
2427
2
转载 给Linux系统新增加一块硬盘
今天公司测试Linux服务器硬盘不够用了,主要是mysql数据文件太大了,买了个500G的硬盘回来,这里记录下新加硬盘的方法PS 测试服务器的主板太差劲了,没有多余的电源接口,只能把光驱的电源拿出来,才能让硬盘使用。把硬盘装好后,我们用 fdisk -l 查看下:图中可以看出 /dev/sdb 是500G,新加的硬盘。接下来我用命令 fdisk sdb 进行分区,输入 p
2017-11-14 17:09:23
18278
1
转载 Spark技术在京东智能供应链预测的应用
大家晚上好,做一个简单的介绍:我叫郭景瞻,来自京东,著有《图解Spark:核心技术与案例实战》一书,还有我的同事杨冬越,他在京东Y事业部,主要从事供应链销量预测、单量预测等系统的设计与实现工作。今天非常感谢InfoQ提供这样的机会给大家做一次分享,我们分享的主题是《Spark技术在智能供应链的应用》。在该分享中,首先介绍京东智能供应链并介绍预测在供应链中的作用,接着介绍预测系统的业务和技术
2017-11-10 18:25:09
935
原创 Presto 集群管理工具
presto 官方提供了集群管理工具,但只支持 RedHat Linux version 6.x * CentOS, ubuntu下,不能正常使用,于是自己撸了一个presto集群管理工具:github链接 https://github.com/leoChaoGlut/presto-manager
2017-11-03 16:37:42
1990
转载 数据库事务的四大特性以及事务的隔离级别
本篇讲诉数据库中事务的四大特性(ACID),并且将会详细地说明事务的隔离级别。 如果一个数据库声称支持事务的操作,那么该数据库必须要具备以下四个特性:⑴ 原子性(Atomicity) 原子性是指事务包含的所有操作要么全部成功,要么全部失败回滚,这和前面两篇博客介绍事务的功能是一样的概念,因此事务的操作如果成功就必须要完全应用到数据库,如果操作失败则不能对数据库有任何影响
2017-10-29 18:57:52
686
转载 HDFS的运行原理
简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。 ② 运行在廉价的机器上。
2017-10-14 16:19:35
530
转载 【案例分享】唯品会海量实时OLAP分析技术升级之路
【文章来源:DBAplus社群。本文根据谢麟炯老师在〖DAMS 2017中国数据资产管理峰会〗现场演讲内容整理而成】讲师介绍谢麟炯,唯品会大数据平台高级技术架构经理,主要负责大数据自助多维分析平台,离线数据开发平台及分析引擎团队的开发和管理工作,加入唯品会以来还曾负责流量基础数据的采集和数据仓库建设以及移动流量分析等数据产品的工作。分享大纲:海量数据
2017-10-14 15:52:08
824
原创 Spark 增量操作 insertInto() 与 mode(SaveMode.Append).saveAsTable() 的区别
前言使用spark做增量操作的时候,会看到有2个方法都可以做: insertInto 和 mode(SaveMode.Append).saveAsTable()区别:insertInto() 无关schema,只按数据的顺序插入,类似hive导入csv.mode(SaveMode.Append).saveAsTable() 如果表已存在,会使用已存在的表的format和option来执
2017-10-12 10:21:12
18780
转载 ROLAP、MOLAP和HOLAP联机分析处理区别
第一篇: OLAP(on-Line Analysis Processing)是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。 “维”(dimension)是人们观察客观世界的角度,是一种高层次的
2017-10-06 22:14:47
784
原创 Kylo 0.8.3 安装
前置条件- kylo-0.8.3.deb(待安装)- ubuntu 14.04(已安装)- jdk 8(已安装)- mysql 5.6(已安装)- HDP 2.6(已安装)- HDF 3.0.1.0(包含nifi1.2)(已安装)- cd /opt/kylo/setup - 只安装activemq和elasticsearch,不安装nifi,使用HDF里的nifi安装脚本修改说明: 如
2017-09-20 10:57:35
1699
转载 归纳决策树ID3(Java实现)
先上问题吧,我们统计了14天的气象数据(指标包括outlook,temperature,humidity,windy),并已知这些天气是否打球(play)。如果给出新一天的气象指标数据:sunny,cool,high,TRUE,判断一下会不会去打球。table 1outlooktemperaturehumiditywindyplay
2017-09-12 16:14:55
1329
转载 Parquet与ORC性能测试报告
一、环境说明Hadoop集群:使用测试hadoop集群,节点:hadoop230hadoop231hadoop232hadoop233这几台机器配置一样,具体参数可参考如下: CPU数量:2个 CPU线程数:32个 内存:128GB 磁盘:48TB使用测试机群上的同一个队列,使用整个集群的资源,所有的查询都是无并发的。Hive使用官方的h
2017-08-22 17:13:45
1459
转载 从贝叶斯定理说开去
从贝叶斯定理说开去罗朝辉 (http://kesalin.github.io/)CC 许可,转载请署名并保留出处简介贝叶斯定理是18世纪英国数学家托马斯·贝叶斯(Thomas Bayes)提出得重要概率论理论。以下摘一段 wikipedia 上的简介:所谓的贝叶斯定理源于他生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死
2017-07-25 16:43:40
447
原创 Sqoop 1.4.6 踩坑记录
精度丢失问题异常信息WARN hive.TableDefWriter: Column your_column had to be cast to a less precise type in Hive描述:使用Sqoop,从MySQL往Hive中import数据的时候出现该异常。MySQL表中,对应的列的类型为decimal(10,2)。Sqoop会把它转为Hive的double类型,导致精度丢
2017-07-20 15:20:29
2256
原创 Spark 踩坑记录
Encoders.bean(Person.class) 调用报异常异常信息Exception in thread "main" java.lang.UnsupportedOperationException: Cannot infer type for class personal.leo.spark.Person because it is not bean-compliant原因: Bean
2017-07-19 17:01:27
1668
1
原创 Apache Kylin无法启动,卡在 “Logging initialized using configuration..."
前置条件完成Hadoop Environment 配置通过 “bin/check-env.sh”问题重现执行 bin/kylin.sh start,然后控制台出现如下信息后,就没有下文了.log4j:WARN No such property [maxFileSize] in org.apache.log4j.DailyRollingFileAppender.Logging initial
2017-07-13 23:05:41
4847
原创 解决时区导致druid任务构建失败的问题:No buckets?? seems there is no data to index.
Error stack as fllow:2017-07-10T08:41:36,134 ERROR [task-runner-0-priority-0] io.druid.indexing.overlord.ThreadPoolTaskRunner - Exception while running task[HadoopIndexTask{id=index_hadoop_pageviews
2017-07-10 16:58:51
4032
2
原创 使用 Ambari 安装 Hadoop 集群
一.环境: 1.Ubuntu 14.04 2.Ambari 2.5.0 3.JDK1.8二:说明: 1.使用 root 用户 2.如果仅用作 demo 使用,不建议单机开多台 vm,除非你的机器内存大于32G,使用单台vm执行以下步骤即可. 3.如果有多台机器可做集群,则给不同的机器设置不同的域名即可,如 [ ubuntu0.com, ubuntu1.c
2017-06-29 18:38:42
3618
2
原创 Spring Cloud Stream 教程
1.说明 1.1.使用kafka作为MQ2.源码:https://github.com/leoChaoGlut/spring-cloud-tutorial/tree/master/tutorial-stream
2017-06-09 12:12:55
2369
原创 Ribbon源码解析及常见问题
1.遇到的问题及对应源码 1.1.Ribbon LoadBalancer 请求缓存: 1.1.1.问题描述: 在基于 Rest 的微服务架构中,使用 Ribbon 来作为客户端负载.当一个服务调用另一个服务的时候, Ribbon 会缓存请求和 service list. 假设现在有service0和service1, 当service1异常关闭后,service0去调用
2017-06-06 19:49:34
3990
原创 Spring Cloud Netflix 教程(Feign+Ribbon+Hystrix)
说明目前这三种组件的讲解资料较少,包括官方的wiki也只是将配置项列出,没有告知如何整合Spring Cloud来做细粒度更小的控制.该工程会提供一些实例,并告知阅读哪些源码来解决问题.service1 仅用于被 service0 调用.使用三种组件,解决分布式服务调用的常见问题超时熔断失败回调源码: https://github.com
2017-06-06 10:03:45
3461
原创 Spring Cloud Bus 教程
1.说明 1.1.使用kafka作为MQ 1.2.存在的问题: 配置中心的配置文件更新后,通过配置中心url访问,无法看到更新后的结果.2.源码:https://github.com/leoChaoGlut/spring-cloud-tutorial/tree/master/tutorial-bus
2017-06-01 23:08:07
2680
原创 Spring Cloud Config 配置中心 教程
1.说明 1.1.使用Spring Security进行配置访问鉴权 1.2.目前使用的是native形式管理配置文件,vault或git形式请自行配置2.源码:https://github.com/leoChaoGlut/spring-cloud-tutorial/tree/master/tutorial-config
2017-06-01 17:05:45
2370
原创 Spring Cloud Sleuth 教程
1.说明: 1.1.使用注解方式,来使用spring cloud sleuth. 1.2.需要自行安装zipkin.2.源码:https://github.com/leoChaoGlut/spring-cloud-tutorial/tree/master/tutorial-sleuth
2017-06-01 11:55:06
7883
原创 Kafka 踩坑记录
1.Java Client Consumer 实现 "--from-beginning":KafkaConsumer JavaDoc 的"Controlling The Consumer's Position"章节中提到,使用" seekToBeginning(Collection) " 可以实现"--from-beginning"的功能,但是却没有告诉我们,这个方法如何调用.如果在"su
2017-05-20 19:23:18
4301
转载 HBase vs. MongoDB vs. MySQL vs. Oracle vs. Redis,三大主流开源 NoSQL 数据库的 PK 两大主流传统 SQL 数据库
权声明:本文为博主原创文章,未经博主允许不得转载。HBase vs. MongoDB vs. MySQL vs. Oracle vs. Redis,三大主流开源 NoSQL 数据库的 PK 两大主流传统 SQL 数据库类别HBaseMongoDBMySQLOracleRedis描述基于 Apache Hadoop 并提供 Bi
2017-05-19 08:08:39
1333
fastjson-1.2.5.jar
2015-06-28
Struts2+Hibernate4+Spring3整合(注解和XML方式都有)
2015-06-24
mysql 数据库 多表 复合 查询
2015-06-27
TA创建的收藏夹 TA关注的收藏夹
TA关注的人