- 博客(73)
- 资源 (12)
- 收藏
- 关注
原创 Skew Join与Left Semi Join相关
Skew Join真实数据中数据倾斜是一定的, hadoop 中默认是使用hive.exec.reducers.bytes.per.reducer = 1000000000也就是每个节点的reduce 默认是处理1G大小的数据,如果你的join 操作也产生了数据倾斜,那么你可以在hive 中设定set hive.optimize.skewjoin =
2013-08-02 10:21:32
3255
原创 hive 桶相关特性分析
桶(bucket)是指将表或分区中指定列的值为key进行hash,hash到指定的桶中,这样可以支持高效采样工作。 抽样(sampling)可以在全体数据上进行采样,这样效率自然就低,它还是要去访问所有数据。而如果一个表已经对某一列制作了bucket,就可以采样所有桶中指定序号的某个桶,这就减少了访问量。
2013-08-02 09:44:39
7204
1
转载 渠道商用假量冒充真实用户:开发者求给条活路
说明:之前在《[转载] 在线广告作弊手段一览》和《[转载]Facebook广告陷入信任危机:虚假点击泛滥》两篇文章中,我们介绍了Web媒体如何作弊和识别广告点击作弊的方法,那在移动互联网中是否存在作弊呢?答案显而易见。本文的作者就为我们描写了是如何识别APP付费推广作弊的。同样,我们重点来学习作者的分析思路。原文链接是:http://www.leiphone.com/0731-utlee-app-
2013-08-01 14:40:57
1953
原创 hive 子查询特别分析
Hive只支持在FROM子句中使用子查询,子查询必须有名字,并且列必须唯一:SELECT ... FROM(subquery) name ...确认下是否一定要求列必须唯一?
2013-07-30 17:17:16
27818
原创 深入浅出hive-hive简介
•Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。•本质是将HQL转换为MapReduce程序 2. 为什么使用hive
2013-07-30 15:00:27
1362
原创 overwrite在hive内部表及外部表特性
overwrite在hive内部表及外部表特性。overwrite即为重写的意思, 指定了OVERWRITE,会有以下效果:•目标表(或者分区)中的内容(如果有)会被删除,然后再将 filepath 指向的文件/目录中的内容添加到表/分区中。 •如果目标表(分区)已经有一个文件,并且文件名和 filepath 中的文件名冲突,那么现有的文件会被新文件所替代。
2013-07-30 11:27:42
21119
原创 查看hive表详细
有些时候,我们需要查看hive表的详细,下面做一些关于hive表的查看表详细信息的方法:desc extended tablename;
2013-07-29 15:13:56
11777
转载 互联网DBA需要做那些事
很早前就想写篇文章介绍一下互联网DBA需要干的一些事情,但苦于没有时间,忙于平台建设,最近,各个模块都初具规模,故有时间静下心来,介绍一下。众所周知,互联网DBA与传统行业DBA有很大的不同,那就是管理的机器多,新技术更新快,面对的开发多、网络环境复杂、要求7*24待机;这样就 导致互联网DBA的工作在传统DBA工作之上,增加了更多的复杂性,我们必须考虑如何大批量部署,如何集中化监控、如何
2013-07-25 10:39:50
923
原创 mysql监测工具tuning-primer.sh
mysql的运算情况,我们可以一步一步的去查看,分析。这样需要一定的时间,今天推荐给大家一个不错的脚本tuning-primer.sh,可以帮助我们去查看一下msyql的运行情况,产生报告和给出一些建议,我们可以根据这些建议,结合mysql服务器的实际情况,对mysql进行优化。
2013-07-24 17:42:29
3674
原创 explain 详细说明
通过explain可以知道mysql是如何处理语句,分析出查询或是表结构的性能瓶颈。通过expalin可以得到:1. 表的读取顺序2.表的读取操作的操作类型3.哪些索引可以使用4. 哪些索引被实际使用5.表之间的引用6.每张表有多少行被优化器查询
2013-07-22 17:41:18
2024
原创 mysql初识之数据文件及其他文件
在mysql中数据文件存放于在my.cnf中datadir指定的路径,使用的表引擎不同产生的文件格式、表文件个数也会有所差异。mysql的表引擎有多种,表的扩展名也不一样,如innodb用“ .ibd”,archive用“.arc ”,csv用“.csv”等。
2013-07-18 23:48:41
10551
原创 mysql 初识之日志文件篇
麻雀虽小,五脏俱全。MySQL虽然以简单著称,但其内部结构并不简单。本章从MySQL物理组成、逻辑组成,以及相关工具几个角度来介绍MySQL的整体架构组成
2013-07-18 15:04:56
5221
原创 mysql表分区
1.分表与表分区的区别1.1 关于分表分表是将一个大表分为几个或是多个小表,例如:table_1每天有1Kw的数据量,table_1随便时间的增长会越来越大,最终达到mysql表的极限,在这种比较极端的情况下我们可以考虑对table_01进行分表操作,即每天生成与table_1表同样的表,每天一张即table_1_20120920更多详细:http://blog.51yip.com
2013-07-17 13:06:11
4401
转载 mysqlreport指南
mysqlreport是mysql性能监测时最常用的工具,对了解mysql运行状态和配置调整都有很大的帮助。找了一些mysql的资料,发现大多数是关于php+mysql开发的,服务配置基本就是固定的几条。干脆找上mysqlreport的官网,啃下来这篇指南。翻译都是随着我个人的语言习惯,对直接能用mysql命令上看到结果的英文则保留下来。方便以后查找:原文地址:http://hackmys
2013-07-16 16:46:24
737
转载 MySQL高可用方案:基于MHA实现的自动故障转移群集
常用MySQL不同高可用方案的对比(下图来自官方手册) 能实现自动数据库故障转移的方案只有MySQL Cluster和 DRBD+Heartbeat,这也是两种不依赖Replication的HA方案。 但是,MySQL Cluster(NDB)配置维护复杂,不像Replication一样稳定易用,大部分公司可能不会考虑这一方案;而DRBD的额外性能消耗又比较
2013-07-16 16:42:33
1215
转载 高性能Mysql数据库表设计原则
以下观点参考《高性能 Mysql》,欢迎指教。1 更小通常更好 选择表示数据的最小类型(正确存储你的内容):比如说,能够使用char 数据类型存储,就不必选择text,能够使用int型存储数据,就不应该使用long型。 理由:更小的数据类型使用了更小的磁盘空间,内存和cpu缓存,而且需要的cpu周期也更少。 PS:确保不会低估要存储的值。(能够很好的把握
2013-07-16 16:40:07
1274
转载 由浅入深探究mysql索引结构原理、性能分析与优化
摘要:第一部分:基础知识第二部分:MYISAM和INNODB索引结构1、 简单介绍B-tree B+ tree树2、 MyisAM索引结构3、 Annode索引结构4、 MyisAM索引与InnoDB索引相比较第三部分:MYSQL优化1、表数据类型选择2、sql语句优化(1) 最左前缀原则(1.1) 能正确的利用索引(1.2
2013-07-16 15:55:13
743
转载 MySQL 数据类型 详解
数值类型 MySQL 的数值数据类型可以大致划分为两个类别,一个是整数,另一个是浮点数或小数。许多不同的子类型对这些类别中的每一个都是可用的,每个子类型支持不同大小的数据,并且 MySQL 允许我们指定数值字段中的值是否有正负之分或者用零填补。 表列出了各种数值类型以及它们的允许范围和占用的内存空间。类型大小范围(有符号)范围(无符号)用途
2013-07-16 15:18:54
661
原创 linux下mysql调化随谈
1. 为什么需要高优?机器发飙、自己主动、客户要求2. 机器发飙网站或客户端打开非常慢,而webserver负载低,或打开静态页面很快,那就很可能是数据库的问题load average >= 5Iowait >= 10vmstat procs(r b) 值较高top中CPU的idle很小,sys或wait较高服务器的swap严重my
2013-07-12 15:40:30
831
转载 linux中内存使用原理
首先介绍一下linux中内存是如何使用的。当有应用需要读写磁盘数据时,由系统把相关数据从磁盘读取到内存,如果物理内存不够,则把内存中的部分数据导入到磁盘,从而把磁盘的部分空间当作虚拟内存来使用,也称为Swap。如果给所有应用分配足够内存后,物理内存还有剩余,linux会尽量再利用这些空闲内存,以提高整体I/O效率,其方法是把这部分剩余内存再划分为cache及buffer两部分加以利用。从磁
2013-07-12 13:47:51
1738
原创 MySQL慢日志分析工具mysqlsla
mysqlsla是一个分析mysql慢日志的工具,由hackmysql.com推出,功能强大,可以分析出慢查询的原因,包括执行某条sql出现的次数及在slow log数据的百分比、执行时间、等待销的时间等。 如何安装下载地址: http://hackmysql.com/scripts/mysqlsla-2.03.tar.gz 1. tar -z
2013-07-11 18:14:36
8222
转载 MySQL-Transfer2.2发布
Transfer 2.2发布。下载地址 版本说明1、 基于版本 Percona-5.5.31 ,简单用法是先安装好官方或PS版5531,然后替换为transfer的mysqld。2、 新增观察参数 Com_ts_*在压测过程中,可使用如下命令观察mysqladmin --socket=run/mysql.sock -uroot extended-status -
2013-07-11 16:20:16
1387
转载 MySQL数据库服务器逐渐变慢 该如何分析与解决
第一步 检查系统的状态通过操作系统的一些工具检查系统的状态,比如CPU、内存、交换、磁盘的利用率,根据经验或与系统正常时的状态相比对,有时系统表面上看起来看空闲,这也可能不是一个正常的状态,因为cpu可能正等待IO的完成。除此之外,还应观注那些占用系统资源(cpu、内存)的进程。1.1 使用sar来检查操作系统是否存在IO问题#sar -u 2 10 — 即每隔2秒检察一次
2013-07-11 16:04:23
12358
转载 mysql高可用探究(六)MMM高可用mysql方案
1 MMM高可用mysql方案1.1 方案简介MMM即Master-Master Replication Manager for MySQL(mysql主主复制管理器)关于mysql主主复制配置的监控、故障转移和管理的一套可伸缩的脚本套件(在任何时候只有一个节点可以被写入),这个套件也能对居于标准的主从配置的任意数量的从服务器进行读负载均衡,所以你可以用它来在一组居于复制的服务器启
2013-07-11 16:01:03
944
转载 生产线上mysql占CPU过高排查实战
前两天,一位编辑跑过来跟我们说,我们的内容管理系统打开非常慢,不知道怎么回事,开始,以为是后台统计的问题,编程兄弟们就立刻查看,没想到没什么事,之后就找到我,叫我看下是怎么回事,我上去一看,不用说了,ssh工具连接上,top一看 根据以上的显示结果,mysql占CPU挺高的,于是我重启下mysql 服务,再次查看结果,CPU的占用还是没有降下来 快速
2013-07-11 15:54:48
1389
转载 MySQL数据库慢日志分析工具mysqlsla
mysqlsla是hackmysql.com推出的一款MySQL的日志分析工具,功能非常强大. 数据报表,非常有利于分析慢查询的原因, 包括执行频率, 数据量, 查询消耗等。一、使用mysqlsla -lt slow mysql-slow.log或者mysqlsla -lt slow mysql-slow.log -sf “+SELECT” -db dbName -top 10 -
2013-07-11 15:48:39
1012
原创 通过show status 优化数据库性能
mysql数据库的性能状态监控点非常多,其中很多量都是不能忽视的必须监控的量,且90%以上的内容 可以在连接上mysql后执行show status 或是 show veriables的输出值 获得,需要注意的是以上的命令获得的状态值实际上是累计值,所以如果 要计算时段内的变化 量还需要稍加处理,下面看下几项需要重点关注的性能状态:1. key buffer 命中率key
2013-07-10 18:05:29
8930
转载 Hadoop安装端口已经被占用问题的解决方法
在测试安装hadoop的时候,通常会遇到大家在同一批机器上安装hadoop的情况,这样的话会有端口已经被占用导致安装不成功的情况出现。Hadoop日志会提示这种错误:ERROR org.apache.hadoop.mapred.TaskTracker: Can not start task tracker because java.net.BindException: Addres
2012-12-21 16:19:44
4463
原创 hadoop环境配置
配置环境:centos 5.4 版本64位系统需要准备的软件:jdk1.6.0版本、hadoop-0.20.2环境介绍集群包含三个节点:1个namenode、2个datanode属于同一个局域网,可以互ping通节点IP如下:namenode:hadoop128@192.168.198.128datanode:hadoop129@192.168.198.129d
2012-11-21 16:48:18
653
转载 如何分析一个网站的SEO情况
网站分析是我们SEO从业者必须要掌握的技能,不仅仅是对竞争对手网站的分析,还要在自己的SEO工作中不断的对自身网站进行分析以及总结,同时,分析别人做得好的网站,可以从中学习很多自己不知道的SEO技巧思路,当然前提是你必须已经掌握了相关SEO基础。另外提一下,从下周起每个星期六将在实战营YY频道开办一个SEO问题答疑(包括网站分析)频道,如果大家有SEO方面的问题请到这里提交:http://
2012-11-19 22:21:28
2090
原创 PostgreSQL执行计划的解释
一个顺序磁盘页面操作的cost值由系统参数seq_page_cost (floating point)参数指定的,由于这个参数默认为1.0,所以我们可以认为一次顺序磁盘页面操作的cost值为1。下面osdba=# explain select * from t;QUERY PLAN———————————————————-Seq Scan on t (cost=0.00 ..4
2012-05-25 15:24:10
25782
1
原创 kettle之------ 多表数据复制
需求:把A库中N个表抽取至B库中,表结构相同或只是增加统一的一些字段, 过滤条件基本类似。解决方法:我们把以上内容在解决问题上拆分为二步,1,从一配制表中读出相应的表名及过滤条件,存于一结果。2,根据第一步的结果,一条条循环来进行取数插数的过程。以上过程相当简单,以下为讨论的实现方式。1,如果是ORACLE 同字符集,用DBLINK结合着存储过程,写一个通用的程序很容易
2012-05-16 16:26:54
7173
1
原创 提高SQL查询性能的7个法宝
每个数据库平台上的SQL开发人员都是在困难中求得生存,我们总是一次又一次犯同样的错误,这是因为数据库领域还相对不成熟,是的,每个数据库厂商都在做着各种不同的努力,但作为开发人员仍然要克服各种问题,无论是在SQL Server,Oracle,DB2,Sybase,MySQL数据库,还是其它关系数据库平台上编写SQL代码,并发性、资源管理、空间管理和SQL运行速度总是困扰着开发人员。 遗憾的
2012-02-23 09:47:26
1319
原创 命令行下MySQL数据导出与导入简单示例
MySQL自带有数据导出命令mysqldump,简单示例如下: mysqldump -h主机 -u用户名 -p 数据库名 > 导出的数据库名.sql mysqldump -h主机 -u用户名 -p 数据库名 表名 > 导出的表名.sql 几个比较常用的参数有 -P或--port 要连接的服务器端口,如果MySQL的端口不是3306,就要用到
2011-11-03 16:46:24
1032
原创 如何在MySQL存储过程中保留注释
本来在MySQL的Store Procedure 里添加注释很简单。可惜如果用命令行客户端来导入备份的数据,注释就会被干掉。在存储过程BODY里面添加注释解决办法:/*!99999* Write your comments here.*/我来举一个例子:DELIMITER $$DROP PROCEDURE IF EXISTS `t_girl`.`
2011-10-21 15:53:07
2096
转载 MySQL配置文件my.cnf中文版
#BEGIN CONFIG INFO#DESCR: 4GB RAM, 只使用InnoDB, ACID, 少量的连接, 队列负载大#TYPE: SYSTEM#END CONFIG INFO## 此mysql配置文件例子针对4G内存# 主要使用INNODB#处理复杂队列并且连接数量较少的mysql服务器# # 将此文件复制到/etc/my.cnf 作为全局设
2011-10-21 15:08:24
675
原创 不错博文收集
1.如何预测用户 query意图:http://www.searchtb.com/2011/01/how-to-predict-user-query-intent.html 2.Treelink算法介绍:http://www.searchtb.com/2010/12/an-introduction-to-treelink.html
2011-10-21 14:39:07
439
原创 mysql 小结
1.修改数据存放路径 [mysqld]basedir=E:\Program Files\mysql #修改成你的mysql安装目录datadir=E:\Program Files\mysql\data #修改成你的mysql数据目录mysqld服务需要重新启动,才会生效。在mysql的安装目录下找到my.ini文件,打开,找到如下项:#Path
2011-10-20 10:44:51
540
车辆管理系统毕业设计范例.doc
2010-04-08
Delphi 深度编程及其项目应用开发
2010-04-08
高质量C语言编程指南
2010-04-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人