haijiege-优快云博客

转载 Hive中小表与大表关联(join)的性能分析(转)

转自:http://blog.sina.com.cn/s/blog_6ff05a2c01016j7n.html经常看到一些Hive优化的建议中说当小表与大表做关联时，把小表写在前面，这样可以使Hive的关联速度更快，提到的原因都是说因为小表可以先放到内存中，然后大表的每条记录再去内存中检测，最终完成关联查询。这样的原因看似合理，但是仔细推敲，又站不住脚跟。多小的表算小表？如果所谓的小表在内...

2019-12-11 15:22:13 1929

转载大表关联小表

当一个大表和一个或多个小表做join时，可以使用mapjoin，性能比普通的join要快很多。mapjoin的基本原理是：在小数据量情况下，SQL会将用户指定的小表全部加载到执行join操作的程序的内存中，从而加快join的执行速度。需要注意，使用mapjoin时：left outer join的左表必须是大表；right outer join的右表必须是大表；inner join左表...

2019-06-10 17:35:59 9737

转载暴力扫描的案例

分区剪裁合理性评估：http://help.aliyun-inc.com/internaldoc/detail/35451.html?spm=a2c1f.8259796.2.351.27b096d5sumssg暴力扫描：http://gitlab.alibaba-inc.com/cdo/adrs/wikis/force_scan暴力扫描的案例对比分区剪裁合理性评估有矛盾：分区裁剪合理...

2019-06-10 17:35:26 703

转载 ROW_NUMBER() OVER()函数用法详解（转）

语法格式：row_number() over(partition by 分组列 order by排序列 desc)row_number() over()分组排序功能：在使用 row_number() over()函数时候，over()里头的分组以及排序的执行晚于 where 、group by、order by 的执行。例一：表数据：create table TEST_R...

2019-04-24 15:51:18 6300

原创 SqlServer 通用表达式 WITH AS

一．WITH AS的含义 WITH AS短语，也叫做子查询部分（subquery factoring），可以让你做很多事情，定义一个SQL片断，该SQL片断会被整个SQL语句所用到。有的时候，是为了让SQL语句的可读性更高些，也有可能是在UNION ALL的不同部分，作为提供数据的部分。特别对于UNION ALL比较有用。因为UNION AL...

2019-04-04 17:05:21 2425

转载 SecureCRT配置屏幕内容输出到log文件

SecureCRT看不到前几分钟操作的内容，或者想把通过vi命令查看的日志输出到log文件（在懒得下载日志文件的情况下），所以接下来就这样操作：文件保存路径 C:\secureCRT\logs\session_%Y_%M_%D_%H.log最后记得勾选保存会话日志这样每次操作完，就会自动记录操作产生屏幕内容的log日志了，生成的日志见下图，以当前日期和IP地址记录了，...

2019-01-17 18:47:37 3033

转载 python3+requests：get/post请求

1.get请求（1）没有请求参数类型1 response = requests.get(url='')2 print(response.text)（2）有请求参数的类型（键值对形式表示参数）1 response = requests.get(url='',params={'key1':'value1','key2':'value2'})2 print(response.te...

2019-01-17 18:41:26 2175

原创 hive中显示当前使用的数据库

在 hive命令行不知道当前数据库有时会带来麻烦。1、可以在hive命令行执行以下语句显示当前数据库：select current_database();2、可以设置hive属性在命令行显示当前数据库：set hive.cli.print.current.db=true;...

2019-01-02 11:43:07 5014

转载自：https://blog.youkuaiyun.com/lovezbs/article/details/46492823非正常关闭vi/vim编辑器时会生成一个.swp文件关于swp文件使用vi/vim，经常可以看到swp这个文件,那这个文件是怎么产生的呢，当你打开一个文件，vi就会生成这么一个.(filename)swp文件以备不测（不测下面讨论），如果你正常退出，那么这个这个swp文...

2018-12-24 11:01:19 28236

转载 pyhton中pycache文件夹的产生与作用

源起今天和一新来的同事沟通，说他用python编写了一个工程，但在第一次运行后，发现工程根目录下生成了一个__pycache__文件夹，里面是和py文件同名的各种以 .cpython-35.pyc 结尾的文件，问同事都不太清楚，所以便抽空整理了一下该知识点。先解释下cpython-35，cpython代表的是c语言实现的Python解释器，-35代表的是版本为3.5版。至于pyc，先来了解一...

2018-12-14 17:50:02 2101 1

转载 count(1)、count(*)与count(列名)的执行区别

执行效果：1. count(1) and count(*)当表的数据量大些时，对表作分析之后，使用count(1)还要比使用count(*)用时多了！从执行计划来看，count(1)和count(*)的效果是一样的。但是在表做过分析之后，count(1)会比count(*)的用时少些（1w以内数据量），不过差不了多少。如果count(1)是聚索引,id,那肯定是count...

2018-12-14 17:09:38 114448 8

转载 Python3之hashlib

简介：　　用于加密相关的操作，代替了md5模块和sha模块，主要提供SHA1，SHA224，SHA256，SHA384，SHA512,MD5算法。在python3中已经废弃了md5和sha模块，简单说明下md5和sha的使用。　　什么是摘要算法呢？　　摘要算法又称为哈希算法，散列算法。它通过一个函数，把任意长度的数据转换为一个长度固定的数据串（通常用16进制的字符串表示）用于加密相关...

2018-12-14 14:17:35 2008

转载 mysqldump导出不包含存储过程

mysqldump导出不包含存储过程mysqldump -u 数据库用户名 -p -n -t -d -R --triggers=false 数据库名 > 文件名这样单独把存储过程和函数导出然后导入之前进mysql 设置下set global log_bin_trust_function_creators=TRUE; 否则报错 ERROR 1418 (HY...

2018-12-11 14:36:10 1716

原创 linux下如何查看某软件是否已安装

因为linux安装软件的方式比较多，所以没有一个通用的办法能查到某些软件是否安装了。总结起来就是这样几类：1、rpm包安装的，可以用rpm -qa看到，如果要查找某软件包是否安装，用 rpm -qa | grep “软件或者包的名字”。 1 [root@hexuweb102 ~] rpm -qa | grep ruby 2、以deb包安装的，可以用d...

2018-11-24 13:56:36 1704

原创 HDFS常用shell命令

HDFS 文件操作命令注，其实常用命令不用网上搜，和linux下的命令很类似，触类旁通，直接在linux 上 hadoop fs 看一下就行了，不需要刻意去记我把 linux 上的 help 列举下，方便直接看吧，hdfs dfs 与 hadoop fs 效果一样常用的就是hdfs dfs -copyFromLocal /local/data /hdfs/data：将本地文件上传到...

2018-11-20 10:32:54 1326

原创 navicat 快捷键

1.ctrl+q 打开查询窗口2.ctrl+/ 注释sql语句3.ctrl+shift +/ 解除注释4.ctrl+r 运行查询窗口的sql语句5.ctrl+shift+r 只运行选中的sql语句6.F6 打开一个mysql命令行窗口7.ctrl+l 删除一行8.ct...

2018-11-14 18:22:08 659

原创 MySQL--启动和关闭MySQL服务

1.Windows下启动服务 mysqld --console　　或　　net start mysql　　关闭服务 mysqladmin -uroot shudown　　或　　net stop mysql　　 2.Linux下启动服务 service mysql start　　　关闭服务 service mysql stop　　重启服务...

2018-11-07 18:31:17 397

原创 linux安装R3.5.0

系统：linux CentOS7本文主要介绍在linux下安装和卸载R3.5.0的方法，并给出我再安装过程中遇到问题的解决方法安装方法：yum在线安装和源码编译安装一：安装第一种：yum在线安装1.安装并启动EPEL（如果已经安装，可直接执行第二步）yum install epel-release2. 安装Ryum install R3. 安装完成后，直接在...

2018-11-07 18:28:58 19456 2

原创 Linux下压缩文件夹命令

tar -zcvf 打包后生成的文件名全路径要打包的目录例子：把/xahot文件夹打包后生成一个/home/xahot.tar.gz的文件。tar -zcvf /home/xahot.tar.gz /xahotzip 压缩方法：压缩当前的文件夹 zip -r ./xahot.zip ./* -r表示递归zip [参数] [打包后的文件名] [打包的目录路径]解压 u...

2018-11-05 16:52:51 146446 2

原创 hive恢复drop table数据

hive 中使用truncate命令将表截断的话，它是不会进回收站的，是没办法恢复的。这个跟oracle truncate有点类似的。恢复在hive中通过drop table删除的数据文件就是将hdfs dfs -rm删除掉的文件进行恢复，只需要hdfs dfs -mv将文件从回收站中搬过来就行，我就先使用这个方法，但是效果不佳，执行select count(*) from ta...

2018-11-02 17:50:47 6785

转载如何查看yum 安装的软件路径

今天使用yum 安装了一个软件，后来没有找到路径1、首先安装一个redis[root@iZbp1eem925ojwyx17ao9kZ ~]# yum install redis2、查找redis的安装包[root@iZbp1eem925ojwyx17ao9kZ ~]# rpm -qa|grep redisredis-3.2.10-2.el7.x86_64[root@iZbp...

2018-11-02 16:01:29 3038

转载十分钟了结MySQL information_schema

转载自：https://www.cnblogs.com/shengdimaya/p/6920677.htmlinformation_schema数据库是MySQL系统自带的数据库，它提供了数据库元数据的访问方式。感觉information_schema就像是MySQL实例的一个百科全书，记录了数据库当中大部分我们需要了结的信息，比如字符集，权限相关，数据库实体对象信息，外检约束，分区，压缩表，...

2018-10-22 18:24:32 148

转载 MySql数据库备份与恢复——使用mysqldump 导入与导出方法总结

转载自：https://blog.youkuaiyun.com/helloxiaozhe/article/details/77680255MySql数据库备份与恢复——使用mysqldump 导入与导出方法总结mysqldump客户端可用来转储数据库或搜集数据库进行备份或将数据转移到另一个sql服务器(不一定是一个mysql服务器)。转储包含创建表和/或装载表的sql语句。ps、如果在服务器上进...

2018-10-22 18:16:11 1098

原创索引失效原因总结

今天一个同事突然问我索引为什么失效。说实在的，失效的原因有多种：但是如果是同样的sql如果在之前能够使用到索引，那么现在使用不到索引，以下几种主要情况:1. 随着表的增长，where条件出来的数据太多，大于15%，使得索引失效（会导致CBO计算走索引花费大于走全表）2. 统计信息失效需要重新搜集统计信息3. 索引本身失效需要重建索引下面是一些不会使用到索引的原因...

2018-10-19 16:10:36 1127

转载 Hive学习之路 Hive中文乱码

目录Hive注释中文乱码针对元数据库metastore中的表,分区,视图的编码设置 1、进入数据库 Metastore 中执行以下 5 条 SQL 语句 2、修改 metastore 的连接 URL 验证正文回到顶部Hive注释中文乱码创建表的时候，comment说明字段包含中文，表成功创建成功之后，中文说明显示乱码create externa...

2018-09-14 10:43:37 718

原创在linux后台运行脚本的方法和命令

后台运行脚本执行脚本test.sh:./test.sh 中断脚本test.sh：ctrl+c 在1的基础上将运行中的test.sh，切换到后台并暂停：ctrl+z 执行ctrl+z后，test.sh在后台是暂停状态（stopped）,使用命令：bg number让其在后台开始运行（“number”是使用jobs命令查到的 [ ]中的数字，不是pid）直接在后台运行脚本test.sh:....

2018-09-12 15:22:03 5327

转载 Linux vi中查找字符内容的方法

使用vi编辑器编辑长文件时，常常是头昏眼花，也找不到需要更改的内容。这时，使用查找功能尤为重要。方法如下：1、命令模式下输入“/字符串”，例如“/Section 3”。2、如果查找下一个，按“n”即可。要自当前光标位置向上搜索，请使用以下命令：/pattern Enter其中，pattern表示要搜索的特定字符序列。要自当前光标位置向下搜索，请使用以下命令：?p...

2018-09-12 15:20:19 250

转载 Linux 文件和文件夹的操作权限

由于 linux 是多用户操作系统，所以基于安全的考虑，需要具备保障个人隐私和系统安全的机制。因此在使用 linux 系统的时候，经常会出现权限的问题(比如: 删除文件、安装软件、运行应用等等)，期初遇到这些问题的时候，大部分都使用sudo或者是sudo chmod 777 file(后面会讲解这个命令)来解决的。虽然这种方式可以解决问题，但是这样是不安全的，特别是在服务器上操作的时候，因为不是所...

2018-09-12 15:19:12 934

转载安装Hue后的一些功能的问题和解决

1、HUE中hive 查询有问题，页面报错：Could not connect to localhost:10000解决方法：在安装的HIVE中启动hiveserver2 &,因为端口号10000是hiveserver2服务的端口号，否则，Hue Web 控制无法执行HIVE 查询。2、Hue中配置DB 查询（mysql）。解决方法：编辑hue.ini[rdbms]...

2018-09-12 14:53:01 2153 1

转载 linux如何查看端口被哪个进程占用？

1、lsof -i:端口号2、netstat -tunlp|grep 端口号都可以查看指定端口被哪个进程占用的情况工具/原料 linux，windows xshell 方法/步骤【步骤一】lsof -i lsof -i 用以显示符合条件的进程情况，lsof(list open files)是一个列出当前系统打开文件的工具。以root用...

2018-09-12 10:59:31 916

转载 Hive的三种安装方式（内嵌模式，本地模式远程模式）

一、安装模式介绍： Hive官网上介绍了Hive的3种安装方式，分别对应不同的应用场景。 1、内嵌模式（元数据保村在内嵌的derby种，允许一个会话链接，尝试多个会话链接时会报错） 2、本地模式（本地安装mysql 替代derby存储元数据） 3、远程模式（远程安装mysql 替代derby存储元数据）二、安装环境以及前提说明：首先，Hive...

2018-09-11 11:30:00 5379 1

转载 U盘安装CentOS 7终极方案，简单有效

笔者前段时间使用U盘安装centos7，遇到很多问题，好在最后都解决了，而且摸索出了最简单有效的方法，现在做下整理，与大家分享。准备工具1.准备8G优盘(启动盘制作完成后，U盘占用约4.02G，所以需要8G)2.最新版UltraISO(软碟通),一定要使用最新版的，因为老版本的软碟通制作出来的U盘启动盘有问题，例如9.3.6.2750这个版本。问题体现在哪呢？我简单说两点。第一点...

2018-08-23 10:57:50 38543 2

原创 Hadoop的各个web界面的地址

1、HDFS界面：http://potter2:50070 查看NameNode状态; 该端口的定义位于core-default.xml中，可以在hdfs-site.xml 中修改; 如果通过该端口看着这个页面，以为着NameNode节点是存活的。 1、HDFS页面：500702、YARN的管理界面：80883、HistoryServer的管理界面：198884、...

2018-07-19 18:28:31 7314

原创 HADOOP数据复制工具Distcp

DistCp概述使用方法基本使用方法选项选项索引更新和覆盖附录 Map数目不同HDFS版本间的拷贝 Map/Reduce和副效应概述DistCp（分布式拷贝）是用于大规模集群内部和集群之间拷贝的工具。它使用Map/Reduce实现文件分发，错误处理和恢复，以及报告生成。它把文件和目录的列表作为map任务的输入，每个任务会完成源列表中部分文件的拷贝...

2018-07-19 17:56:57 328

原创 HDFS文件操作(命令行)

haddop fs -ls / (查询目录)hadoop fs -mkdir /test （在根目录下创建一个目录test）hadoop fs -put ./test.txt /test （将本地的test.txt文件上传到HDFS根目录下的test文件夹中去） hadoop fs -copyFromLocal ./test.txt /test （同...

2018-07-19 17:50:06 13650

原创 HDFS知识点总结

学习完Hadoop权威指南有一段时间了，现在再回顾和总结一下HDFS的知识点。1、HDFS的设计HDFS是什么：HDFS即Hadoop分布式文件系统（Hadoop Distributed Filesystem），以流式数据访问模式来存储超大文件，运行于商用硬件集群上，是管理网络中跨多台计算机存储的文件系统。HDFS不适合用在：要求低时间延迟数据访问的应用，存储大量的小文件，多用户写入，...

2018-07-18 18:38:26 351

转载数据库存取缓冲区的LRU与MRU算法

1.Cache Hit and Cache Miss当使用者第一次向数据库发出查询数据的请求的时候，数据库会先在缓冲区中查找该数据,如果要访问的数据恰好已经在缓冲区中(我们称之为Cache Hit)那么就直接用缓冲区中读取该数据.反之如果缓冲区中没有使用者要查询的数据那么这种情况称之为Cache Miss,在这种情况下数据库就会先从磁盘上读取使用者要的数据放入缓冲区,使用者再从缓冲区读取该数据.很...

2018-07-06 18:32:57 3770

原创 Spark排序之SortBy

sortBy函数源码：接收三个参数，第一个参数必须，第二个和第三个参数非必要def sortBy[K]( f: (T) => K, ascending: Boolean = true, numPartitions: Int = this.partitions.length) (implicit ord: Ordering[K], ctag: C...

2018-07-06 11:42:38 4606

翻译 Spark中的键值对操作-scala

1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作。这些RDD被称为PairRDD。PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口。例如，PairRDD提供了reduceByKey()方法，可以分别规约每个键对应的数据，还有join()方法，可以把两个RDD中键相同的元素组合在一起，合并为一个RDD。2.创建Pair RDD 程序示例：...

2018-07-05 18:28:36 2933

原创 Maven的安装与配置

1 Maven简介Apache Maven是一个软件项目管理和综合工具，通过它便捷的管理项目的生命周期。即项目的jar包依赖，开发，测试，发布打包。2 Maven下载http://maven.apache.org http://maven.apache.org/download.cgi 下载zip格式的软件包apache-maven-3.5.0-bin.zip3 Maven环境变量设置（1）解压缩...

2018-06-25 10:57:06 295

python3.6.0-64位

Python具有丰富和强大的库。它常被昵称为胶水语言，能够把用其他语言制作的各种模块（尤其是C/C++）很轻松地联结在一起。常见的一种应用情形是，使用Python快速生成程序的原型（有时甚至是程序的最终界面），然后对其中[3] 有特别要求的部分，用更合适的语言改写，比如3D游戏中的图形渲染模块，性能要求特别高，就可以用C/C++重写，而后封装为Python可以调用的扩展类库。需要注意的是在您使用扩展类库时可能需要考虑平台问题，某些可能不提供跨平台的实现

2017-09-06