- 博客(914)
- 资源 (17)
- 收藏
- 关注

原创 杀死GP进程
SELECT datname,procpid,query_start, current_query,waiting,client_addr FROM pg_stat_activitySELECT pg_cancel_backend(73741)
2020-03-23 15:48:06
809

原创 查看GP空间
select table_schema,table_name,sz,cast (cast(substring(sz,1,length(sz)-3) as decimal(18,2))*(case when sz like '%k%' then power(10,-13)when sz like '%M%' then power(10,0)when sz like '%G%' then ...
2020-03-23 14:11:22
1232
原创 server install pandas
408 24-07-26 15:07:19 pip install pandas 409 24-07-26 15:07:55 pip install --upgrade pip 410 24-07-26 15:08:16 python setup.py egg_info 411 24-07-26 15:08:29 sudo pip install pandas 412 24-07-26 15:08:35 sudo pip install padas 413 24-07-26
2024-07-26 16:41:39
191
原创 greenplum实现隐式转换
--CREATE function--drop FUNCTION BooleanToBit(Boolean)CREATE FUNCTION BooleanToBit(Boolean)RETURNS bitSTRICT IMMUTABLE LANGUAGE PLPGSQLAS$$BEGIN IF $1 is false THEN RETURN b'0'; elseif $1 is true then RETURN b'1';...
2022-04-08 10:59:14
444
原创 mysql中位数
WITH tb AS(SELECTsort_id,ddate,nfee,nfee_lastyear,lead(nfee,1,0)over(PARTITION BY sort_id ORDER BY ddate DESC) nfee_lastmonthFROM(SELECT a.sort_id,DATE_FORMAT(a.ddate,'%Y-%m-01') AS ddate,SUM(nfee) AS nfee,SUM(nfee_lastyear) AS nfee_lastyearFRO...
2022-02-07 18:02:48
1141
原创 es按月归档
get /log_app_business_202012*/basic/_search{ "query": { "match_all": {} }}# 721POST /_reindex{ "source": { "index": "log_app_business_202012*", "size": 5000 }, "dest": { "index": "log_app_business_m202012" }}get /log_a...
2022-01-19 13:24:30
2501
原创 elasticsearch集群正确关闭、重启方式
问题原因:在elasticsearch集群中,当集群发现某个节点关闭时,将延迟一分钟后(默认)再开始将该节点上的分片复制到集群中的其他节点,这可能涉及很多I / O。由于该节点不久将要重新启动,因此该I / O是不必要的。您可以通过在关闭节点之前禁用副本分配来避免。正确关闭方式:第一步:禁止分片自动分布curl -X PUT "localhost:9200/_cluster/settings?pretty" -H 'Content-Type: application/json' -d'
2022-01-15 16:27:30
1193
原创 Elasticsearch滚动重启
对于日常维护:比如系统重启、更换硬件等操作,比较实用。按照下面的步骤逐一重启节点,可以防止分片的再平衡,避免磁盘和网络的巨大开销。对于给ES安装插件的操作,最好整个集群都关闭然后在安装,之后再重启整个集群,防止出现集群脑裂操作。1、可能的话,停止索引新的数据。虽然不是每次都能真的做到,但是这一步可以帮助提高恢复速度。2、禁止分片分配。这一步阻止Elasticsearch再平衡缺失的分片,直到你告诉它可以进行了。如果你知道维护窗口会很短,这个主意棒极了。你可以像下面这样禁止分配:PU.
2022-01-15 10:39:51
369
原创 sqlserver jdbc
微软最近开源了他们的jdbc驱动程序。现在,您可以在Maven Central上找到驱动程序:<!-- https://mvnrepository.com/artifact/com.microsoft.sqlserver/mssql-jdbc --><dependency> <groupId>com.microsoft.sqlserver</groupId> <artifactId>mssql-jdb...
2021-09-29 10:48:54
289
原创 linux 测速
curl -s https://raw.githubusercontent.com/sivel/speedtest-cli/master/speedtest.py | python
2021-09-16 10:46:49
144
原创 mysql 删除换行符
UPDATE app_forecast SET location = REPLACE(REPLACE(location, CHAR(10), ''), CHAR(13), '');
2021-03-29 09:22:51
298
原创 Yarn 任务缓存数据和HistoryServer 历史任务日志数据清理
清理yarn-nodemanager 历史任务存储的中间结果以及依赖jar包修改 yarn-site.xmlvim $HADOOP_HOME/etc/hadoop/yarn-site.xml添加以下内容 <property> <name>yarn.nodemanager.localizer.cache.target-size-mb</name> <value>1024</value>
2020-12-04 10:31:47
2392
原创 MySQL8.0 新特性 Hash Join
概述&背景MySQL一直被人诟病没有实现HashJoin,最新发布的8.0.18已经带上了这个功能,令人欣喜。有时候在想,MySQL为什么一直不支持HashJoin呢?我想可能是因为MySQL多用于简单的OLTP场景,并且在互联网应用居多,需求没那么紧急。另一方面可能是因为以前完全靠社区,这种演进速度毕竟有限,Oracle收购MySQL后,MySQL的发版演进速度明显加快了很多。HashJoin本身算法实现并不复杂,要说复杂,可能是优化器配套选择执行计划时,是否选择HashJoin,选择外表
2020-12-02 17:06:31
414
原创 es索引备份与删除
POST /_reindex{"source": {"index": "log_filter_20200926","size": 5000},"dest": {"index": "log_filter_20200926_bak"}}delete /log_filter_20200926
2020-10-19 12:58:17
712
原创 elastic 别名
post_aliases{ "actions": [ { "add": { "index": "ads_test", "alias": "alia_test" } } ]}post_aliases{ "actions": [ { "remove": { "index": "ads_test", "alias": "alia_test" ...
2020-10-17 14:28:07
257
原创 mssql sqlserver 分析函数lag lead使用说明及简介
下文讲述sqlserver 2012中 lag、lead分析函数的用法及简介实验环境: sqlserver 2012lag、lead:可以不通过联结的形式获取上下相邻(指定偏移量)行的指定列的数据lag 向前指定数据lead向后指定数据——————–lag、lead参数说明:参数1:列名参数2:偏移量offset参数3:进行偏移量计算后,无法得到结果时的缺省值例:lag分析函数举例说明 declare @test table(keyId int,info varch.
2020-09-30 12:22:04
1548
原创 MySQL 8.0窗口函数
一、窗口函数的使用场景作为IT人士,日常工作中经常会遇到类似这样的需求:医院看病,怎样知道上次就医距现在的时间?环比如何计算?怎么样得到各部门工资排名前N名员工列表?查找各部门每人工资占部门总工资的百分比?对于这样的需求,使用传统的SQL实现起来比较困难。这类需求都有一个共同的特点,需要在单表中满足某些条件的记录集内部做一些函数操作,不是简单的表连接,也不是简单的聚合可以实现的,通常会让写SQL的同学焦头烂额、绞尽脑汁,费了大半天时间写出来一堆长长的晦涩难懂的自连接SQL,且性...
2020-09-30 12:21:21
141
原创 python中#!含义
LINUX 上的 Shebang 符号(#!)#!这个符号叫做 Shebang 或者 Sha-bangShebang 通常在 Unix 系统脚本的中第一行开头使用指明执行这个脚本文件的解释程序使用 Shebang 的步骤使用 which 查询 python3 解释器所在路径$ which python3 修改要运行的主 python 文件,在第一行增加以下内容#! /usr/bin/python3 修改 主 python 文件 的文件权限,增加执行权限$ chmod +x cards_main.py ...
2020-08-25 17:30:58
5565
原创 mapping 修改字段
1 backPOST /_reindex{ "source": { "index": "old_index" }, "dest": { "index": "tmp_index", "op_type": "create" }}2 create index mapping3、回写indexPOST /_reindex{ "source": { "index": "tmp_index" }, "dest": { "in...
2020-08-18 10:18:27
143
原创 SPARK数据类型SPARSEMATRIX 解释
parseMatrixSpark的mllib包中提供了机器学习的两种基本数据类型: DenseMatrix(稠密)和 SparseMatrix(稀疏),在初始化对象的时候可以使用Matrices伴生对象产生,先看下示例代码:import org.apache.spark.mllib.linalg.{Matrix, Matrices}// Create a dense matrix ((1.0, 2.0), (3.0, 4.0), (5.0, 6.0))val dm: Matrix = Mat
2020-07-11 14:22:04
920
原创 Elasticsearch地理位置总结
更多内容请参考 :https://www.felayman.com翻译版本:https://es.xiaoleilu.com/310_Geopoints/00_Intro.html官方原文:https://www.elastic.co/guide/en/elasticsearch/guide/current/geoloc.html本文只是针对这些内容通过具体的例子用java来实现其具体细节,如果只想看java实现部分,请直接往下面代码实现部分看地理坐标点(geo-point) 是指地球表面...
2020-07-08 13:28:06
517
原创 elasticsearch多磁盘扩容
1、问题由于早前elasticsearch集群数据存储路径只配置了一个,所以某天磁盘突然爆满,集群差点当机。需重新配置多路径存储路径,因为在生产环境,得保证集群不死掉,只能一台一台配置重启。2、修改配置文件修改elasticsearch.yml中path.data属性,添加多路径以逗号分隔path.data : /opt/data1,/opt/data23、查看集群状态curl -XGET "http://xxxx:9200/_cat/indices"curl -XGET.
2020-07-06 18:49:51
3448
1
原创 HDFS数据平衡:节点间平衡与节点内平衡
前面某篇文章已经说过,HDFS容易发生数据不平衡的问题。这其中包括各个DataNode之间存储的数据量差异,以及一个DataNode内部各磁盘之间存储的数据量差异。HDFS专门提供了对应的机制来解决。节点间平衡:BalancerCDH在HDFS中提供了Balancer角色,使我们可以免于用命令行执行start-balancer.sh来手动配置。Cloudera Manager里与Balancer有关的配置项有以下这些。Balancing Threshold:Balancer平衡的阈值。平衡过程结
2020-07-04 14:45:47
1764
原创 Linux下su与su -命令的区别
在启动服务器ntpd服务时遇到一个问题使用 su root 切换到root用户后,不可以使用service命令;使用 su - 后,就可以使用service命令了。原因:su命令和su -命令区别就是:su只是切换了root身份,但Shell环境仍然是普通用户的Shell;而su -连用户和Shell环境一起切换成root身份了。只有切换了Shell环境才不会出现PATH环境变量错误,报command not found的错误。su切换成root用户以后,pwd一下,发现工作
2020-07-01 14:37:21
139
原创 如何解决Greenplum master node与seg node元数据不一致,greenplumseg
作为分布式数据库,Greenplum的元数据经常(是真的,经常遇到)会出现些错误,典型的一个是master node与seg node元数据不一致,本文结合一个具体错误,介绍下解决的办法。现象使用gpcheckcat -p 5432 databasename检查数据库时,将报出类似如下的输出:Relation oid: 12345678Relation name: ns1.table1 Name of test which found this issue: missing_ext
2020-07-01 13:58:20
559
转载 Greenplum获取表结构
最近在折腾greenplum,遇到一个蛋疼的问题,那就是获取表结构,也就是建表语句。大家都知道在MySQL里面是非常easy的,show create table table_name 就搞定了,在gpdb里面就没这么容易,在查询大量资料以后终于找到了方法。那就是自己定义一个函数去获取,函数中可以嵌套python代码,非常的方便。但是资料中的代码有大量错误,在经过几番调试以后终于可以使用了。如果没有这个函数其实也可以获取表结构,那就是只能导出这个表的结构进行查看了。导出表结构的命令是:pg_dum
2020-06-30 18:40:03
1108
原创 Idea快捷键大全(Windows)
Ctrl快捷键 介绍Ctrl + F 在当前文件进行文本查找 (必备)Ctrl + R 在当前文件进行文本替换 (必备)Ctrl + Z 撤销 (必备)Ctrl + Y 删除光标所在行 或 删除选中的行 (必备)Ctrl + X 剪切光标所在行 或 剪切选择内容Ctrl + C 复制光标所在行 或 复制选择内容Ctrl + D 复制光标所在行 或 复制选择内容,并把复制内容插入光标位置下面 (必备)Ctrl + W 递进式选择代码块。可...
2020-05-15 09:21:27
242
原创 安装elasticdump
1 下载node-v8.17.0-linux-x642、上传到 linux3、解压tar xvf node-v8.17.0-linux-x64.tar.gz4、转移文件cp -r node-v8.17.0-linux-x64 /home/node/5、设置环境变量 vi/etc/profileexport NODE_HOME=/home/node/node-v8.17.0...
2020-04-08 19:10:30
1019
原创 mysql 随机分页的优化
SET @a=(SELECT FLOOR(RAND() *(SELECT COUNT(*) FROM table_a)/10000)); # 取随机页SELECT b.*FROM( SELECT recordid FROM ( SELECT recordid FROM table_a LIMIT @a,10000 # 取随机页...
2019-12-04 10:16:52
989
转载 elasticsearch中如何高效的使用filter
这里有一篇很好的文章,很不错,翻译和整理了一下,英文不错的,建议直接看原文:http://euphonious-intuition.com/2013/05/all-about-elasticsearch-filter-bitsets/elasticsearch里面有BOOLfilter、AND、OR、NOTfilter,这几个看起来很相似,都有什么区别呢?什么时候用boolfilter?什...
2019-05-16 18:22:53
595
原创 SQLServer changtracking 增量获取
select(case CT.sys_change_operation when 'I' then 'INSERT' when 'U' then 'UPDATE' when 'D' then 'DELETE' end) as rowtype,CT.sys_change_version as rowVersion,CT.主键from( select 主键,max(sy...
2019-03-25 10:20:38
581
转载 基于storm的实时计算应用实践
有赞使用storm已经有将近3年时间,稳定支撑着实时统计、数据同步、对账、监控、风控等业务。订单实时统计是其中一个典型的业务,对数据准确性、性能等方面都有较高要求,也是上线时间最久的一个实时计算应用。通过订单实时统计,描述使用storm时,遇到的准确性、性能、可靠性等方面的问题。订单实时统计的演进第一版:流程走通在使用storm之前,显示实时统计数据一般有两种方案:在数据库里执行count、sum...
2018-06-06 09:44:58
4713
原创 varbin2hexstr
CREATE function varbin2hexstr( @bin varbinary(8000) )returns varchar(8000) as begin declare @re varchar(8000),@i int select @re='',@i=datalength(@bin) while @i>
2017-12-12 15:50:05
715
原创 IP 数字 互转 SQL server
ALTER FUNCTION [dbo].[f_Int2IP](@IP bigint)RETURNS varchar(16)ASBEGIN DECLARE @re varchar(16) SET @re='' SELECT @re=@re+'.'+CAST(@IP/ID as varchar) ,@IP=@IP%ID fro
2017-11-21 14:23:21
1665
Inside_the_SQL_Server_Query_Optimizer
2012-02-24
SQL Server 2005数据挖掘与商业智能完全解决方案
2011-11-01
正则表达式测试工具Regex Tester
2010-06-24
DisplayX 显示器测试软件
2010-05-13
硬件工具鲁大师(原名Z武器)
2010-04-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人