
大数据技术
文章平均质量分 82
zdp072
Jim的IT专栏
展开
-
hadoop(二) - 伪分布模式的安装
hadoop的安装分为本地模式、伪分布模式、集群模式, 本地模式是运行在本地, 只负责存储, 没有计算功能. 伪分布模式是在一台机器上模拟分布式部署, 方便学习和调试. 1. 解压缩hadoop 使用winscp把压缩包: hadoop-1.0.4.tar.gz从windows复制到linux的/usr/local目录下 解压缩文件: tar -xzvf hadoop-1.0.4.tar原创 2014-11-10 22:23:23 · 1067 阅读 · 0 评论 -
windows下使用eclipse开发hadoop
一. 配置hadoop插件 1. 安装插件 将hadoop-eclipse-plugin-1.1.2.jar复制到eclipse/plugins目录下,重启eclipse 2. 打开MapReduce视图 window -> open perspective -> other 选择Map/Reduce 图标是一个蓝色的象 3. 添加一个MapReduce环境 在eclipse下端,控制原创 2015-01-24 23:19:30 · 1106 阅读 · 0 评论 -
hadoop(四) - 分布式计算利器MapReduce
一. MapReduce执行过程 MapReduce运行的时候, 会通过Mapper运行的任务读取HDFS中的数据文件, 然后调用自己的方法处理数据, 最后输出. Reduce任务会接受Mapper任务输出的数据, 作为自己输入的数据, 然后调用自己的方法, 最后输出到HDFS的文件中.原创 2014-11-23 22:41:10 · 1398 阅读 · 0 评论 -
hadoop(五) - 分布式计算利器MapReduce加强
一. Partitioner是partitioner的基类,如果需要定制partitioner也需要继承该类。 public class DataCount { public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job =原创 2014-12-15 21:46:08 · 837 阅读 · 0 评论 -
hadoop(三) - HDFS分布式存储系统
一. 分布文件系统和HDFS: 其实我们可以把分布式文件系统HDFS理解为windows文件系统, 可以在文件夹里面分门别类地存放文件, 只不过HDFS通过网络把文件存放在多台主机上 二. HDFS的shell操作: HDFS是存取数据的分布式文件系统, 对HDFS的操作就是文件系统的基本操作, 比如文件的创建、修改、删除、修改权限等 对HDFS的操作命令类似Linux的shell对文件的操作, 如: ls、mkdir、rm等 HDFS命令选项: 1. - ls 显示当前目录结构原创 2014-11-18 23:29:38 · 2692 阅读 · 0 评论 -
hadoop(十一) - hadoop各版本集群环境搭建
一. hadoop1.0集群搭建: 1.启动Linux,选择I copy it(选择move是mac地址不变,选择copy,会新产生一mac地址) 2.配置Linux环境 2.1执行ifconfig命令发现,可用的网卡是eth1 HWaddr 2.2将eth1的新的mac地址复制下来,替换原来eth0里旧的的mac地址 vim /etc/sysconfig/network-s原创 2014-12-28 18:26:05 · 1370 阅读 · 0 评论 -
hadoop(九) - hbase shell命令及Java接口
1. 进入hbase命令行 ./hbase shell 2. 显示hbase中的表 list 3. 创建user表,包含info、data两个列族 create 'user', 'info1', 'data1' create 'user', {NAME => 'info', VERSIONS => '3'} 4. 向表中插入信息: 向user表中插入信息,row原创 2014-12-23 22:08:44 · 1921 阅读 · 0 评论 -
hadoop(八) - hbase集群环境搭建
1. 上传hbase安装包hbase-0.96.2-hadoop2-bin.tar.gz 2. 解压 tar -zxvf hbase-0.96.2-hadoop2-bin.tar.gz -C /cloud 3. 配置hbase集群,要修改3个文件(首先zk集群已经安装好了) 注意:要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/co原创 2014-12-23 21:50:56 · 2095 阅读 · 0 评论 -
hadoop(十三) - mahout安装与使用
一. mahout简介: Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。 以下为在mahout实现的机器学习算法: 算法类原创 2015-01-12 22:54:10 · 6667 阅读 · 0 评论 -
hadoop(十二) - pig安装与使用
一. Pig简介: Pig可以看做hadoop的客户端软件,可以连接到hadoop集群进行数据分析工作。 Pig方便不熟悉Java的用户,使用一种较为简便的类似于sql的面相数据流的语言Pig latin进行数据处理。 Pig latin可以进行排序、过滤、求和、分组、关联等常用操作,还可以自定义函数,这是一种面向数据分析处理的轻量级脚本语言。 Pig可以看做是Pig latin到map-原创 2015-01-07 22:10:30 · 1854 阅读 · 0 评论 -
hadoop(十) - hive安装与自定义函数
一. Hive安装 Hive只在一个节点上安装即可 1. 上传tar包 2. 解压 tar -zxvf hive-0.9.0.tar.gz -C /cloud/ 3. 配置mysql metastore(切换到root用户) 3.1 配置HIVE_HOME环境变量 3.2 安装mysql 查询以前安装的mysql相关包: rpm -qa | grep mysql 暴力删除这个包原创 2014-12-27 21:21:55 · 1242 阅读 · 0 评论 -
hadoop(六) - ZooKeeper安装与配置
一. ZooKeeper配置 1.使用winscp上传zk安装包 zookeeper-3.4.5.tar.gz原创 2014-12-21 18:44:18 · 1104 阅读 · 0 评论 -
hadoop(八) - sqoop安装与使用
一. sqoop安装: 安装在一台节点上就可以了。 1. 使用winscp上传sqoop 2. 安装和配置 添加sqoop到环境变量 将数据库连接驱动mysql-connector-5.1.8.jar拷贝到$SQOOP_HOME/lib里 二. sqoop的使用 ### 第一类:数据库中的数据导入到HDFS上 sqoop import --connect jdbc:原创 2014-12-21 19:24:17 · 1180 阅读 · 0 评论 -
hadoop(一) - 环境安装准备
一. 安装JDK, 并配置环境变量 准备安装文件: jdk-6u24-linux-i586.bin 1. 把安装文件移动到/usr/local目录下, 进入到/usr/local目录下, 通过"."解压文件: 2. 解压完成后, 我们可以查看到新产生的目录jdk1.6.0_24, 使用mv命令重命名为jdk, 目的是方便以后引用原创 2014-11-10 21:56:36 · 1076 阅读 · 0 评论 -
Hbase入门笔记
在我学习Hbase的时候有几个概念需要重点理解一下,列出4个基础概念如下图所示: Column Family的概念 Column Family又叫列族,Hbase通过列族划分数据的存储,列族下面可以包含任意多的列,实现灵活的数据存取。刚接触的时候,理解起来有点吃力。我想到了一个非常类似的概念,理解起来就非常容易了。那就是家族的概念,我们知道一个家族是由于很多个的家庭组成的。列族也类似,...原创 2018-04-06 09:54:26 · 479 阅读 · 0 评论