
Hadoop+Hbase+Hive技术
文章平均质量分 89
zolalad
这个作者很懒,什么都没留下…
展开
-
从一道hive面试题的解决思路中理解hive应用
Hive面试题—理清hive应用思路问题:有一张很大的表:TRLOG该表大概有2T左右。TRLOG:CREATE TABLE TRLOG(PLATFORM string,USER_ID int,CLICK_TIME string,CLICK_URL string)row format delimited fields terminated by '\t';数据:原创 2013-09-01 11:15:54 · 7499 阅读 · 1 评论 -
MRv1的新旧API分别与MRv2的API兼容性分析
浅析MRv1与MRv2的API兼容性1. 基本概念MRv1是Hadoop 1.X中的MapReduce实现,它由编程模型(新旧编程接口)、运行时环境(由JobTracker和TaskTracker组成)和数据处理引擎(MapTask和ReduceTask)三部分组成。该框架在扩展性、容错性(JobTracker单点)和多框架(仅支持MapReduce一种计算模型)等支持方面支持不足。关于M转载 2014-09-01 16:05:08 · 3829 阅读 · 0 评论 -
Hbase-业务开发(应用开发)-参考目录
Hbase-业务开发*实践学习目录一、Hbase数据库编程学习-前言 作为一个HBase-“业务开发测试”人员,需要迫切掌握的技术至少包含以下几点:1.深入理解HTable,掌握如何结合“业务”设计高性能的HTable;2.掌握与HBase的交互,反正是离不开数据的增删改查,通过HBase Shell命令及Java Api都是需要的;3.掌握如何用MapReduce原创 2014-02-24 19:20:02 · 1425 阅读 · 0 评论 -
经典Hadoop家族系列文章
Hadoop家族系列文章:学习路线图Hadoop家族学习路线图 开篇必读Hive学习路线图Mahout学习路线图编程实践Hadoop历史版本安装用Maven构建Hadoop项目Hadoop编程调用HDFS在Ubuntu中安装HBase用Maven构建Mahout项目Mahout推荐算法API详解用M转载 2014-07-15 10:07:35 · 2751 阅读 · 0 评论 -
Mapreduce学习指导及疑难解惑汇总
1.思想起源:我们在学习mapreduce,首先我们从思想上来认识。其实任何的奇思妙想,抽象的,好的想法、都来源于我们生活,而我们也更容易理解我们身边所发生事情。所以下面一篇便是从生活的角度,来让我们理解,什么是mapreduce。Hadoop简介(1):什么是Map/Reduce2.设计思路我们从思想上认识了mapreduce,那么mapreduce具体是什么,我们需转载 2014-08-31 16:04:33 · 2980 阅读 · 0 评论 -
用Maven构建基于hadoop的Mahout项目
一、用Maven构建Mahout项目转载 2014-07-15 10:03:11 · 2777 阅读 · 0 评论 -
mapreduce中控制mapper的数量
深度分析如何在Hadoop中控制Map的数量 很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定。在默认情况下,最终input占据了多少block,就应该启动多少个Mapper。如果输入的文件数量巨大,但是每个文件的size都小于HDFS的blockSize,那么会造成启动的Mapper等于文件的数量(即每个文件都占据了转载 2014-06-04 10:47:40 · 5318 阅读 · 0 评论 -
MapReduce程序运行原理及其执行过程
PHP连接MYSQL,Oracle,MS-SQL,access数据库的代码一、PHP连接MYSQL数据库代码<?php $mysql_server_name='localhost'; //改成自己的mysql数据库服务器$mysql_username='root'; //改成自己的mysql数据库用户名$mysql_password=原创 2013-09-08 20:25:09 · 4904 阅读 · 0 评论 -
在Eclipse上部署Hadoop源码-进行开发和调试
一、什么是数据挖掘 数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。 二、数据挖掘相关的10个问题 NO.1 Data Mining 和统计分析有什么转载 2013-09-12 09:41:57 · 2604 阅读 · 0 评论 -
Linxu环境下使用Eclipse直接调试mapreduce程序(不用插件)
个性化智能推荐技术研究总结 随着网络与信息技术的飞速发展,互联网为用户提供越来越多的信息和服务,用户在得到便利的同时也不得不面临大量的垃圾信息和无意义数据,即所谓的信息超载问题。面对海量的网络资源,个性化推荐系统是一种极具潜力的解决信息超载的服务技术,它利用用户的偏好信息自动的向用户推荐符合其兴趣特点的对象。这搜索引擎提供的“一对多”式的信息服务不同,个性化推荐系统输出的结果更符合用户需转载 2013-11-15 19:08:55 · 3083 阅读 · 0 评论 -
MapReduce中InputFormat和InputSplit解读
Windows系统中文件大小和占用空间不同的原因解析1.“文件大小”与“所占空间”的差别 为了便于大家理解,我们先来看两个例子:例1:找到D盘上的Ersave2.dat文件,用鼠标右键单击该文件,选择“属性”,即可打开对话框,我们可以看到,Ersave2.dat的实际大小为655,628 Byte(字节),但它所占用的空间却为688,128 Byte,两者整整相差了32KB。原创 2013-10-12 16:06:48 · 4940 阅读 · 0 评论 -
CentOS下Hadoop伪分布模式安装笔记
CentOS下Hadoop伪分布模式安装笔记 一. 前言 Hadoop 伪分布式模式是在单机上模拟 Hadoop分布式,单机上的分布式并不是真正的伪分布式,而是使用线程模拟分布式。Hadoop本身是无法区分伪分布式和分布式的,两种配置也很相似,唯一不同的地方是伪分布式是在单机器上配置,数据节点和名字节点均是一个机器。 现在很多初学者根本不具备搭建完全分布式集群的硬件原创 2013-09-09 10:54:12 · 12543 阅读 · 5 评论 -
Hadoop技术原理总结
业界常见的数据挖掘软件介绍一、主要介绍12种1.传统的数据挖掘套件(Classic suites):SAS Enterprise Miner 5.3SPSS Clementine 12 2.开源数据挖掘软件(Open Source):Weka 3.4.13RapidMiner 4.2KNIME 1.3.5 3.自动化数据挖掘软件(Self-Act原创 2013-09-12 10:09:25 · 8253 阅读 · 0 评论 -
Hadoop系统完全分布式集群搭建方法
Hadoop系统分布式集群搭建方法 1. linux操作系统安装在每个节点上安装Linux操作系统(Centos6.3),安装时为各机器分别命名为 Master,slave1、slave2…。令主机名为Master的作为主节点,主机名为slave1、slave2…作为从节点。如果是在已经安装好系统的集群中配置hadoop环境,且各机器的主机名命名无规律,这时最好按照下述方法修改主机原创 2013-09-09 10:13:39 · 7224 阅读 · 1 评论 -
Hadoop MapReduce基于新API的WordCount程序运行过程分析
解决在windows的DOS中不能使用mysql命令打开数据库的方法问题:在WindowsXP中打开DOS,通过输入命令“mysql -u root -p”切换到mysql下,切换失败,如下所示:Microsoft Windows XP [版本 5.1.2600](C) 版权所有 1985-2001 Microsoft Corp.C:>mysql -u root -p'mysq原创 2013-09-08 20:05:35 · 2844 阅读 · 0 评论