asin929-优快云博客

原创 Greenplum优化--SQL调优篇

目录数据库查询预准备 VACUUMANALYZEEXPLAIN执行计划两种聚合方式关联重分布查询优化 explain参数选择合适分布键分区表压缩表分组扩展窗口函数列存储和行存储函数和存储过程索引使用[NOT IN](#NOT IN)聚合函数太多资源队列其它优化技巧参考数据库查询预准备VACUUMvacuum只是简单的回收空间且令其可以再次使用，没有请求

2016-09-28 23:43:42 37568 1

原创 Cloudera Manager5.8.0离线安装记

目录目录安装说明有关数据库配置关于Oozie数据库配置关于Hue数据库配置附其他数据库的配置错误解决错误1CM Server启动出错错误2CM Agent启动出错错误3spark启动出错附录参考安装说明安装参考官方文档：Cloudera Enterprise 5.8.x Documentation和Installation Path C - Manual Installati

2016-08-21 23:57:42 7217

markdown转为htmlmarkdown转html比较容易些，有很多方法都可以做到。1. 通过markdown编辑器导出linux下常用的markdown编辑器有retext,haroopad等，这些软件都支持自定义css并导出html。以上软件的安装详见linux环境下Markdown编辑器汇总。2. 使用github上的开源项目github上有许多优秀的开源项目都可以将markdown转为

2015-12-02 14:47:01 16341 1

原创 linux环境下Markdown编辑器汇总

Markdown编辑器汇总（Fedora21）1.geditgedit支持markdown语法高亮，不过不支持预览结果，gedit界面如附录图1所示。2. vim在vim中写markdown，首先安装语法高亮的插件－－vim-markdown．至于预览，则有很多方式：使用vim插件－－vim-instant-markdown 此方法可以实现markdown实时预览，不过得首先安装nodejs和n

2015-10-13 10:34:23 24973

原创 linux命令实现词频统计

问题给定示例文件test.txt如下，对第一列做词频统计并排序。hello marrymax threadhello lihuamax applemax codenasa connection解答切割并分组并排序，cat test.txt | cut -d ' ' -f1 | sort | uniq -c | sort -k 1 1 nasa 2 hello

2017-03-10 18:58:55 10908

原创图解linux链接

图解linux链接说明：基于f1，分别为其创建软硬链接f3、f2（使用到了ln命令），如下。分析ln命令默认产生硬链接f1删除后索引节点并不会删除，因为还有f2指向它，若所有指向索引节点的硬链接均删除，索引节点才会被释放。f1删除后，f3会因找不到f1而失效f3删除后，不会对f1、f2产生影响。

2017-03-10 17:08:41 995

原创 GP索引调优测试--原理篇

说明之前对Postgres/GP的索引测试见GP索引调优测试–基本篇.md和GP索引调优测试–排序篇，此文给出原理解释。原理建议先阅读“深入理解计算机系统(原书第2版)的第6章存储器层次结构”，再了解B树，最后阅读数据库索引原理及优化，可以对索引的原理有很清楚的了解。这里给出使用索引和不使用索引时，查询时间的复杂度，查询类型无索引复杂度有索引复杂度特定数据（=） O(n)

2017-03-01 00:23:29 2244

原创使用Solr完成自动补全（续）

说明–关于短语补全使用Solr完成自动补全主要介绍的是关键字补全。实际上将下面的设置，"suggestion" type="text_spell" indexed="true" stored="true" multiValued="true" /> 更改为如下，即为短语补全，"suggestion" type="text_au

2016-11-20 19:24:58 1865 1

原创 HUE提交MapReduce作业示例

说明操作步骤步骤1新建MapReduce的action步骤2填写配置　步骤3提交作业说明因为HUE也是通过Oozie的REST提交作业，故看过Oozie提交作业总结后，在HUE中提交作业变得相当简单。操作步骤步骤1–新建MapReduce的action步骤2–填写配置　图中所有的”Hadoop job properties”如下，mapreduce.input.fileinputformat

2016-11-19 23:18:12 5168

原创 Oozie提交作业总结

命令行方式最常用的就是通过命令行方式提交，见YARN和HDFS的调用方式汇总中的“使用oozie提交yarn作业环节。REST方式使用REST的方式显然更通用，当然原理与上述完全一致。步骤1–创建工作空间目录首先在HDFS上创建相应工作空间目录–/user/${user.name}/workspaces，放置oozie要用到的workflow.xml，并创建lib文件夹，里面放置打好的jar包，如下

2016-11-19 22:54:00 5592

原创使用Solr完成自动补全

操作流程创建目录产生collection所需的配置文件修改配置文件中的shemaxml和solrconfigxml1 修改solrconfigxml2 修改schemaxml上传配置目录到ZooKeeper创建新的collection查看并导入数据自动补全操作流程1. 创建目录mkdir -p /root/solr-test/solr-auto-testcd /root/sol

2016-11-19 15:50:07 4359 1

原创 jQuery的highlight插件使用示例

使用步骤1. 加载js在head中加载jquery.js和jquery.highlight.js， <script src="./jquery-1.9.1/jquery.js"></script> <script src="./jquery.highlight.js"></script> 2. 设置高亮的css在css中或通过jquery指定高亮区域的颜色： .hig

2016-11-19 15:36:22 5882 1

原创 Solr性能调优

调整Java堆大小在导入比较大的csv文件的过程中，报错curl: (56) Recv failure: Connection reset by peer。在CDH中查看，发现solr崩了。。。重启solr，发现只传输了约 200M的数据。解决办法：调整参数Java Heap Size of Solr Server in Bytes和Java Direct Memory Size of Solr S

2016-11-16 22:37:37 1956 2

原创 Solr中的注意点

注意点1–注意重启当修改了配置文件后，一定要重启Solr才能生效；自动补全时，插入新数据后，一定要重新build，即勾选“spellcheck”及下面的“spellcheck.build”并执行即可，此时会对所有数据更新index。注意点2–注意延迟有时候执行某些操作（比如新增/删除数据）后，刷新界面并不能看到最新信息，请稍微等待即可。注意点3–小心覆盖若导入如下的csv文件，则后一条记录会覆

2016-11-16 22:33:54 1456 1

原创 Solr导入CSV文件

数据准备首先得准备好一份csv文件，这份文件可以是手动生成，也可以是从数据库中导出来的。参见PostgreSQL导入导出数据，将Postgres中的表导出为csv文件。数据上传上传csv文件示例，curl http://solr-server:8983/solr/your-collection/update/csv --data-binary @your-csv.csv -H 'Content-t

2016-11-16 22:21:57 3108 1

原创 HUE中集成Solr

说明HUE中集成Solr创建Dashboard附录关于HUE中的Solr重点博文说明官方文档见Using Hue with Cloudera Search，但是该文章基本没有内容。要想完全理解，需要在HUE的官网上查找相关文章，见后面的附录。HUE中集成Solr为HUE配置Solr 服务依赖，之后重启即可。默认HUE不依赖于Solr服务。创建Dashboard在Solr安装及使用示例中，我

2016-11-12 17:40:33 4059 1

翻译 Solr安装及使用示例

Solr安装初始化collection为数据创建索引运行查询附加错误解决翻译自Validating the Deployment with the Solr REST API，在小集群上进行如下步骤。Solr安装在Cloudera Manager Server的控制台界面，直接点击“Add Service”，找到Solr，将其添加进来即可。当然，前提是ZooKeeper得安装好。初始化co

2016-11-12 16:56:50 3851 1

原创编程常识

说明作为一名程序员，实在忍受不了听见别人发错音的尴尬，故在GItHub上发起项目–program-common-sense。当前计划包括IT单词正确发音，IT单词正确写法，编程野史三部分。欢迎大家多多fork！！！

2016-10-29 14:20:45 980

转载 PostgreSQL问题解决--连接数过多

错误描述用pgAdmin连接数据库时，提示Connection could not be allocated because: FATAL: sorry, too many clients already

2016-10-29 13:10:26 22203

原创 Spark的Notebook工具汇总

工具汇总当前Spark的Notebook工具主要有四个，Zeppelin 安装：Spark Interpreter for Apache ZeppelinSpark Notebook: 官网HUE 安装：HUE配置Spark Notebook Jupyter：安装： Jupyter配置Spark开发环境优缺点上述四个工具都有自己的特点，但侧重点不同。Jupyter是轻量级别的，

2016-10-27 23:32:14 5808

转载 HUE配置Spark Notebook

在HUE3.10版中已经具有spark notebook的功能，但需要自己配置。安装步骤主要参照run-hue-spark-notebook-on-cloudera进行。注意点在第四步，#download Livywget http://archive.cloudera.com/beta/livy/livy-server-0.2.0.zipunzip livy-server-0.2.0.zip

2016-10-27 22:57:51 7751

原创 HUE3.10本地安装

HUE安装概览HUE安装的方式基本有三种，CDH中集成（直接在CM Server中添加该服务即可）Docker中快速体验，见使用Docker安装HUE 本地手动安装，需要自己配置，比较麻烦，但可以尝试最新版，并且比较稳定。下面是本地安装后的首页截图。本地安装简介安装$ git clone https://github.com/cloudera/hue.git$ cd hue$ mak

2016-10-27 22:34:13 1400

原创关于远程主机的数据传输

说明常用的传输数据的方式scpftp sftprz命令场景场景1远程外网场景2 远程内网场景3 跳板主机外网远程内网附注参考说明经常需要向远程主机传文件，实际情况中要考虑到多种场景。常用的传输数据的方式scp本地文件传送到远程主机 $ scp local-file remote-user@remote-host:file-dir远程主机文件到本地$ scp remote@

2016-10-26 22:07:28 1802

原创 YUI Compressor完成代码混淆示例

YUI Compressor相关信息官网GitHub地址混淆单个js一般命令，java -jar yuicompressor-x.y.z.jar myfile.js -o myfile-min.js若出现编码错误，就加上编码参数，比如你的文件的编码是utf-8编码，则命令如下，java -jar yuicompressor-x.y.z.jar myfile.js -o myfile-min.j

2016-10-26 21:37:31 5034

原创 Tomcat部署应用总结

待添加tomcat的8005端口（控制台）启动比较慢。8080端口启动比较早。有的应用启动也比较慢，需耐心等待，不要以为出错。

2016-10-25 00:34:14 405

原创解决Sqoop传输数据过程中的字段数异常

问题描述在使用Sqoop将数据表导入到HDFS，再将HDFS的表文件导出时，往往会出现无法解析xxx值的错误，这种情况往往是该行的字段数异常（多或少）导致。解决方案写个简单的程序，将字段数异常的行找出来。测试数据1 aa bb cc2 fjd fjasl jfals3 jfas fda jjfas jald4 fjd fjasl jfals5 fjd fjasl jfals6 fjd fj

2016-10-25 00:29:53 1832

原创 PostgreSQL去掉表中所有不可见字符

问题描述数据库中的某些数据中包含了某些不可见字符，ASCII码中的0-31,127属于控制字符，不可见。详情见wiki–控制字符。这些不可见字符往往是不需要的，我们要想办法删除它。解决办法写一函数，将所有的不可见字符替换为空格。测试流程环境准备建表，并插入带不可见字符的记录。注：下列数据中的不可见字符在粘贴过来的时候自动去掉了，请按ALT+数字键加入。CREATE TABLE public.test

2016-10-25 00:18:44 4969

原创 Greenplum优化--数据库配置篇

GP数据库参数配置以下配置存于文件–postgresql.conf中，仅列出一些最常用的参数。shared_buffers：刚开始可以设置一个较小的值，比如总内存的15%，然后逐渐增加，过程中监控性能提升和swap的情况。effective_cache_size : 这个参数告诉PostgreSQL的优化器有多少内存可以被用来缓存数据，以及帮助决定是否应该使用索引。这个数值越大，优化器使用索引的

2016-09-28 23:40:11 18911

原创 Greenplum优化--系统配置篇

GP优化–系统配置篇目录硬件选型服务器系统参数配置备份节点分配技巧参考硬件选型操作系统：不支持Windows，支持以下类UNIX操作系统，首选 RHEL 6。 SUSE Linux SLES 10.2 or higher;CentOS 5.0 or higher;RedHat Enterprise Linux 5.0 or higher;Solaris x86 v10 updat

2016-09-28 23:31:33 6168

原创搭建Spark开发环境的几种方式及入门示例

命令行运行参见如何在CDH5上运行Spark应用，在终端就可以完成一个Spark程序的编写及运行。IDE篇Eclipse参见 Eclipse安装Scala插件。TODO：补充运行截图。Idea参考Intellij Idea搭建Spark开发环境。TODO：待补充截图。

2016-09-24 19:48:59 1676

原创 GP索引调优测试--排序篇

简介测试环境PostgreSQL环境测试无索引有索引有无索引的比较GP环境测试无索引有索引结论简介在PostgreSQL及GP集群上分别进行索引调优的测试，重点研究索引对排序查询的影响。测试环境数据库信息：PostgreSQL版本: 9.4GP版本：4.3(基于PostgreSQL 8.2)测试表信息：表名：test总行数：68w总大小：170MB测试语句：查看执行

2016-09-24 19:10:51 3483

原创 GP索引调优测试--基本篇

简介测试数据生成无索引测试测试1查找特定数据测试2查找特定范围的语句测试3排序测试有索引测试测试4查找特定数据测试5查找特定范围的语句测试6排序测试总结简介以下是一些基本的，以体现索引功能的测试。测试数据生成以下参照PostgreSQL生成测试数据进行。创建表CREATE TABLE test( id integer, test integer)WITH (

2016-09-24 18:55:08 4774

原创 PostgreSQL生成测试数据

创建测试表CREATE TABLE test( id integer, test integer)WITH ( OIDS=FALSE);ALTER TABLE test OWNER TO postgres;插入数据插入100w行值为0-1000的数据，-- 插入100w行记录insert into test SELECT generate_series(1,1000000

2016-09-24 18:44:23 5820

原创 PostgreSQL导入导出数据

命令行操作命令行导出命令行导入pgAdmin操作pgAdmin导出pgAdmin导入参考命令行操作命令行导出pg_dump：将一个PostgreSQL数据库转储到一个脚本文件或者其它归档文件中 pg_dump mydb > db.sql：将mydb数据库转储到一个 SQL 脚本文件pg_dump mydb -s > db.sql：将mydb数据库转储到一个 SQL 脚本文件（只导出

2016-09-24 18:35:09 28604 1

原创向数据库中插入特殊符号测试

简介由数据库中查找包含换行符的记录引出的一个问题是，既然数据库中存在某些记录包含了换行符，那么这些特殊符号当初是怎么插进来的？以下就是一些相关测试。测试环境操作系统：Win10数据库版本：PostgreSQL9.6测试准备–创建测试表表名student，表中有三个字段：id, profile, hobby。CREATE TABLE student( id serial NOT NUL

2016-09-24 18:21:16 5228

原创数据库中查找包含换行符的记录

回车换行简介换行符：linux/unix下的换行符是\n。windows中的换行符是\r\n，Mac系统下的换行符是\r。其中:回车符：\r=0x0d (13) return； #回车（carriage return）换行符：\n=0x0a (10) newline。#换行（newline）关于回车换行符，阮一峰的网络日志–回车和换行解释地非

2016-09-24 18:03:33 13828 1

原创 Jupyter配置Spark开发环境

效果图简介Spark Kernel的安装Spark Kernel旧的项目Toree新项目Spark组件单独安装Scala Kernel的安装PySpark的安装效果图无图无真相，以下是运行截图，Jupyter运行界面：作业监控界面：简介为Jupyter配置Spark开发环境，可以安装全家桶–Spark Kernel或Toree，也可按需安装相关组件。考虑到一般人更喜欢一步到位，

2016-08-30 20:34:12 13008

原创 Linux下端口占用查看

相关命令查看端口是否被占用：通过过滤查看：netstat -anp | grep port 查看特定端口：lsof -i:port查看端口被哪个进程占用： netstat -anp | grep port或lsof -i:port 显示结果的有进程id，再ps -ef | grep pid即可查看进程（如java进程）使用的端口： ps -aux | grep java 找到

2016-08-29 11:59:53 908

原创 PostgreSQL中的注意点

注意点1在pgAdmin中，有些数据表的内容可以编辑，某些却不可以。发现如果表不设置主键的话是没法编辑的，只有设置主键后才可以双击编辑。注意点2使用命令pg_ctl -D /var/lib/pgsql/data -l logfile stop停止数据库时，一直没有停止。打开pgAdmin，断开该数据库的连接。重新stop后马上停止。

2016-08-28 23:19:27 1088

原创 Java中错误记录

错误1—int cannot be converted to long执行如下java代码，想通过强制类型转换将int转为long时，报错：int cannot be converted to long。int a = 80;Long b = (Long) a;参见Stack Overflow–Converting Integer to Long，选择其一解决方案，Integer i = 7;L

2016-08-28 22:52:47 1267

zeal-0.2.1-1.fc21.x86_64.rpm

mahout-examples-0.9-job.jar（修改版）

AdventureWorks+sql+server+2005示例数据库

空空如也