自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 资源 (4)
  • 收藏
  • 关注

转载 [转]Docker 和 Kubernetes 从听过到略懂:给程序员的旋风教程

转自:https://1byte.io/developer-guide-to-docker-and-kubernetes/ 早在 Docker 正式发布几个月的时候,LeanCloud就开始在生产环境大规模使用 Docker,在过去几年里 Docker 的技术栈支撑了我们主要的后端架构。这是一篇写给程序员的 Docker 和 Kubernetes 教程,目的是让熟悉技术的读者在尽可能短的时间内...

2019-03-27 14:23:27 241

转载 Apache Pig的一些基础概念及用法总结(1)

本文转自 http://www.codelast.com/      本文可以让刚接触pig的人对一些基础概念有个初步的了解。 本文大概是互联网上第一篇公开发表的且涵盖大量实际例子的Apache Pig中文教程(由Google搜索可知),文中的大量实例都是作者Darran Zhang(website: codelast.com)在工作、学习中总结的经验或解决的问题,并且添加了较为详

2013-08-21 15:47:01 1076

转载 脱离Hadoop的环境下使用Lzo

脱离Hadoop的环境下使用Lzo  转自http://heipark.iteye.com/blog/1605721   hadoop lzo 动机:希望通过Java API将日志行压缩到lzo文件,然后上传到HDFS。因为kevinweil-hadoop-lzo提供了LzopOutpuStream,所以这一切很容易实现,需要注意的是该jar包依赖native code和lzo本身。

2012-07-24 16:34:42 947

转载 oracle常用经典SQL查询

oracle常用经典SQL查询  转自 http://space.itpub.net/13165828/viewspace-604038 1、查看表空间的名称及大小   select t.tablespace_name, round(sum(bytes/(1024*1024)),0) ts_size from dba_tablespaces t, dba_data_files d

2012-05-30 00:12:26 623

转载 kafka 消息订阅发布系统设计介绍

Kafka消息订阅发布系统设计介绍 转自: http://blog.youkuaiyun.com/dahaifeiyu/article/details/6455989 Kafka学习总结 一、Kafaka简介 Kafka是一个分布式的消息发布-订阅系统。它的特性如下: l  通过在O(1)的磁盘数据结构上提供消息持久化,对于即使数以TB的消息存储也能够保持长时间的稳定性能。 l  高吞吐

2012-03-12 14:39:12 1713

转载 namenode 内部关键数据结构简介

转自http://blog.youkuaiyun.com/zyj8170/article/details/7029892 1 概述 本文档目的在于对namenode中各种关键的数据结构进行剖析和解释,以方便更好的对namenode的各种处理逻辑和代码结构进行理解。其中包 括对namenode中Namenode和FSNameSystem的程序代码结构,FSDirectory,BlocksMap, Corr

2012-03-07 21:14:34 643

转载 lzo的安装及在hadoop中的配置 .

转自 http://blog.youkuaiyun.com/zyj8170/article/details/6598082 一、前提 1、gcc的安装:yum install lib* glibc* gcc* 如果lzo编译出错时可能需要安装 2、ant的安装:安装略,最好1.8.2及以上版本,并设置好环境变量 在第三步需要用到ant 二、lzo的安装 wget http://www

2012-03-07 21:11:21 2245

转载 hadoop FAQ

转自 http://blog.youkuaiyun.com/zyj8170/article/details/6037934 1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out Answer: 程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲

2012-03-07 21:04:27 865

转载 Oracle 索引 详解

Oracle 索引 详解 本文转自》》 http://blog.youkuaiyun.com/tianlesoftware/article/details/5347098 一.索引介绍  1.1 索引的创建语法:  CREATE UNIUQE | BITMAP INDEX .       ON .            ( |  ASC | DESC,              |

2012-03-03 20:19:39 560

原创 ssh_exchange_identification: Connection closed by remote host

今天,在win7下安装了Cygwin并安装了openssh, 在cygwin下配置并启动sshd,启动成功,但是(ssh localhost)连接时出现:   ssh_exchange_identification: Connection closed by remote host    试着访问 ssh 127.0.0.1 也不行,但是访问主机名可以--- ssh 主机名 也不可以

2012-02-23 13:45:07 826

转载 又一个NoSQL知识清单

本文转自:http://blog.nosqlfan.com/html/1647.html 下面介绍的一篇长文,对NoSQL的各个方面做了系统深入的介绍,提纲明晰,知识量大,非常值得一看。 下面是文章索引: 1 Core NoSQL 1.1 Amazon’s Dynamo 1.2 Cassandra — A Decentralized Structu

2012-02-01 09:57:47 469

转载 【转贴】Google的十大核心技术

【转贴】Google的十大核心技术   来源:http://www.chinakdd.com/portal.php?mod=view&aid=125347 本系列是基于公开资料对Google App Engine是如何实现的这个话题进行深度探讨。而且在切入Google App Engine之前,首先会对Google的核心技术和其整体架构进行分析,以帮助大家之后更好地理解Googl

2012-02-01 09:04:08 636

转载 hadoop使用lzo压缩文件笔记 (CDH3u1)

hadoop使用lzo压缩文件笔记 (CDH3u1)  转自http://heipark.iteye.com/blog/1172759   博客分类: hadoop LZO性能 Compression File Size (GB) Compression Time (s) Decompression Time (s) None some_l

2011-12-09 12:53:25 923

转载 Map/Reduce中Join查询实现

本文转自 http://bbs.hadoopor.com/thread-2146-1-1.html Map/Reduce中Join查询实现 一、背景 早在8月份的时候,我就做了一些MR的Join查询,但是发现回北京之后,2个月不用,居然有点生疏,所以今天早上又花时间好好看了一下,顺便写下这个文档,以供以后查阅。 二、环境 JDK 1.6、Linux操作系统、hadoo

2011-12-08 13:05:01 718

转载 Hadoop Map/Reduce教程

Hadoop Map/Reduce教程 目的 先决条件 概述 输入与输出 例子:WordCount v1.0 源代码 用法 解释 Map/Reduce - 用户界面 核心功能描述 Mapper Reducer Partitioner Reporter OutputCollector 作业配置 任务的执行和环境 作业的提交与监控 作业的控制 作业的输入

2011-12-06 10:06:54 885

原创 suse 下vsftp 搭建

大多数较新的系统采用的是xinetd超级服务守护进程。使用“vi /etc/xinetd.d/vsftpd” 看一下它的内容,如下:  disable = no  socket_type = stream wait = no 如果“/etc/vsftpd.conf”中的有选项为“listen=YES”,注销它 最后,重启xinetd,命令如下: $ /etc/init.d/

2011-12-05 20:29:51 1957

转载 hadoop的reducer输出多个文件

转自:http://coderplay.iteye.com/blog/191188 hadoop的reducer输出多个文件 有时候我们想到这样的功能: reducer能根据key(或value)值来输出多个文件,同一key(或value)处于同一个文件中。现在hadoop的0.17.x版本可以重写MultipleOutputFormat的generateFileNameForKeyValu

2011-12-05 13:05:47 962

原创 hive元数据存储在mysql 字符集utf8 修改

表或者字段有中文的时候需要修改hive的元数据库的设置。 以mysql为例子,当mysql的字符集设置成utf8的时候使用hive会有问题 (com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Specified key was too long; max key length is 767 bytes ) 所以当h

2011-11-24 22:14:20 3683

转载 hive 中简单介绍分区表

转自http://blog.youkuaiyun.com/jiedushi/article/details/6778521 hive中简单介绍分区表 hive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段,而是一个或者多个伪列。意思是说在表的数据文件中实际上并不保存分区列的信息与数据。 下面的语句创建了一个简单的分区表:

2011-11-24 09:50:14 972

原创 SSH 无密码连接问题

$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 在root下使用,可以不用密码登录了, 但是在其他用户处理后,提示还是需要密码   这个是权限问题 chmod 600 authorized_keys  便可

2011-11-24 08:44:30 602

转载 hive 分区表

hive sql分区表   转自: http://blog.youkuaiyun.com/lpxuan151009/article/details/6653514 hive> create table lpx_partition_test(global_id int, company_name string)partitioned by (stat_date string, province s

2011-11-23 22:37:42 2051

转载 HIVE中UDTF编写和使用

HIVE中UDTF编写和使用 1. UDTF介绍 UDTF(User-Defined Table-Generating Functions)  用来解决 输入一行输出多行(On-to-many maping) 的需求。 2. 编写自己需要的UDTF 继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF。实现initi

2011-11-23 10:06:59 2390

转载 Hive UDAF 开发

本文转自:http://richiehu.blog.51cto.com/2093113/386113 Hive进行UDAF开发,相对要比UDF复杂一些,不过也不是很难。 请看一个例子 package org.hrj.hive.udf; import org.apache.hadoop.hive.ql.exec.UDAFEvaluator; import org.apa

2011-11-22 22:23:31 814

转载 Hive UDF 开发

转自 http://richiehu.blog.51cto.com/2093113/386112     Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。     Hive的UDF开发只需要重构UDF类的evaluate函数即可。例: package com.hrj.hive.udf;

2011-11-22 22:21:06 526

转载 HBase 集群配置

HBase 是一个开源的非关系(NoSQL)的可伸缩性分布式数据库。它是面向列的,并适合于存储超大型松散数据。HBase适合于实时,随机对Big数据进行读写操作的业务环境。关于HBase的更多介绍请参见HBase项目官网。     本文环境与上一讲--完全分布式Hadoop集群配置一致。OS是Ubuntu Server 10.04,HBase版本是0.20.6。          HRegio

2011-11-18 20:08:08 772

转载 python常用时间操作

python常用时间操作 分类: Python 2010-08-30 10:07 146人阅读 评论(0) 收藏 举报 我们先导入必须用到的一个module >>> import time 设置一个时间的格式,下面会用到 >>>ISOTIMEFORMAT=’%Y-%m-%d %X’ 看一下当前的时间,和其他很多语言相似这是从epoch(1970 年 1 月 1

2011-11-18 09:51:38 565

原创 hive sql 用法

DDL Operations 创建表 hive> CREATE TABLE pokes (foo INT, bar STRING); 创建表并创建索引字段ds hive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); 显示所有表 hive> SHOW TABLES; 按正条件(正则表达

2011-11-17 22:27:07 3135

转载 基于mapreduce的 Hadoop join 实现分析(二)

基于mapreduce的Hadoop join实现分析(二) 标签: hadoop mapreduce join 2009-11-22 17:00 上次我们讨论了基于mapreduce的join的实现,在上次讨论的最后,我们对这个实现进行了总结,最主要的问题就是实现的可扩展性,由于在reduce端我们通过一个List数据结构保存了所有的某个外键的对应的所

2011-11-17 09:46:44 703

转载 基于mapreduce的Hadoop join实现分析(一)

基于mapreduce的Hadoop join实现分析(一)   对于一个大数据的分析应用,join是必不可少的一项功能.现在很多构建与hadoop之上的应用,如Hive,PIG等在其内部实现了join程序,可以通过很简单的sql语句或者数据操控脚本完成相应的Join工作.那么join应该如何实现呢?今天我们就对join做一个简单的实现. 我们来看一个例子,现在有两组数据:一

2011-11-17 09:44:33 771

转载 hadoop 两表join处理方法

1. 概述 在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。 本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。 2. 常见的join方法介绍 假设要进行join的数据分别来自File1和File2.

2011-11-17 09:36:27 1008

转载 Hive 的可拓展性

文章转自: http://www.chinaovo.net/hive/295.htm   Hive 是一个很开放的系统,很多内容都支持用户定制,包括: 文件格式:Text File,Sequence File内存中的数据格式: Java Integer/String, Hadoop IntWritable/Text用户提供的 map/reduce 脚本:不管什么语言,利用 stdin

2011-11-17 09:24:15 970

原创 RHEL/CentOS 5.x使用yum快速安装MySQL 5.5.x

RHEL/CentOS 5.x使用yum快速安装MySQL 5.5.x 1、安装MySQL 5.5.x的yum源: rpm -Uvh http://repo.webtatic.com/yum/centos/5/latest.rpm 2、安装MySQL客户端的支持包: yum install libmysqlclient15 --enablerepo=webtatic

2011-11-16 23:37:36 473

转载 hive使用mysql保存metastore

文章转自 http://blog.youkuaiyun.com/jiedushi/article/details/6579956  hive使用mysql保存metastore Hive 将元数据存储在 RDBMS 中,有三种模式可以连接到数据库: 1)ingle User Mode: 此模式连接到一个 In-memory 的数据库 Derby,一般用于 Unit Test。 2)Mu

2011-11-16 22:45:57 718

转载 Scribe+HDFS日志收集系统安装方法

Scribe+HDFS日志收集系统安装方法 1、概述 Scribe是facebook开源的日志收集系统,可用于搜索引擎中进行大规模日志分析处理。其通常与Hadoop结合使用,scribe用于向HDFS中push日志,而Hadoop通过MapReduce作业进行定期处理,具体可参见日文日志: http://d.hatena.ne.jp/tagomoris/touch/2011020

2011-11-16 22:37:21 522

转载 hbase 架构

[翻译]HbaseArchitecture HBase架构 原文地址:http://wiki.apache.org/hadoop/Hbase/HbaseArchitecture 本文来自 博客园 逖靖寒 http://gpcuster.cnblogs.com 关于HBase,有一篇非常容易入门的文章,可以参考:Understanding HBase and BigTable 介绍

2011-11-16 22:24:58 586

转载 hadoop IPC/RPC 机制

在分布式应用程序中使用Hadoop IPC/RPC 原文地址:http://www.supermind.org/blog/520/using-hadoop-ipcrpc-for-distributed-applications 本文来自于:http://gpcuster.cnblogs.com 译文: 关于Hadoop IPC 我们一起来了解Hadoop IPC,这是一个内进程间通信(I

2011-11-16 22:21:17 1431

转载 深入剖析Hadoop程序日志

深入剖析Hadoop程序日志    前提 本文来自于 博客园 逖靖寒的世界 http://gpcuster.cnblogs.com 了解log4j的使用。  正文 本文来自于 博客园 逖靖寒的世界 http://gpcuster.cnblogs.com *.log日志文件和*.out日志文件 进入我们的Hadoop_LOG目录,我们可以看到如下文件:   在启动

2011-11-16 22:17:42 554

转载 hadoop 并发编程

转自 http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop2/index.html  分析 WordCount 程序 我们先来看看 Hadoop 自带的示例程序 WordCount,这个程序用于统计一批文本文件中单词出现的频率,完整的代码可在下载的 Hadoop 安装包中得到(在 src/examples 目录中)。

2011-11-16 21:56:09 2107

原创 sqoop 配置及导入导出操作

1、下载相应软件 下面是CDH3和SQOOP 1.2.0的下载地址 http://archive.cloudera.com/cdh/3/hadoop-0.20.2-CDH3B4.tar.gz http://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4.tar.gz 其中sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20

2011-11-16 21:06:42 3111

转载 开源日志系统

转自 http://dongxicheng.org/search-engine/log-systems/ 开源日志系统比较    1. 背景介绍 许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征: (1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦; (2) 支

2011-11-16 10:14:26 694

MyEclipse6.0 速成

一本非常好的MyEclipse 6.0教程

2008-06-20

postgrel 8.4 文档

postgrel 文档,不可多得的好文档 ,

2011-08-18

orcale 好书

sfdsfsfsf 一本好书

2008-03-10

netty in action

netty in acion 不错,直的很不错

2015-09-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除