
hadoop
youngqj
因为喜欢,所以选择!
展开
-
初识hadoop笔记(一)
hadoop 可分为单节点方式配置, 伪分布式配置,集群方式安装单节点的hadoop无须配置,在这种方式下Hadoop 被认为是一个单独的Java 进程,通常用来调试伪分布式配置:可以帮伪分布式的hadoop 看做是只有一个节点的集群节点既是master 也是 NameNode 也是 datanode既是JobTraker 也是TaskTraker.原创 2013-08-27 23:26:42 · 844 阅读 · 0 评论 -
如何判定并设置YARN 和MapReduce 内存
11.1. Manually Calculate YARN and MapReduce Memory Configuration SettingsThis section describes how to manually calculate YARN and MapReduce memory allocation settings based on the node hardware s翻译 2015-08-06 13:07:41 · 6031 阅读 · 0 评论 -
Centos 安装R 集成 Hadoop、RHive 配置安装手册
RHive 是一种通过HIVE高性能查询来扩展R计算能力的包。它可以在R环境中非常容易的调用HQL, 也允许在Hive中使用R的对象和函数。理论上数据处理量可以无限扩展的Hive平台,搭配上数据挖掘的利器R环境, 堪称是一个完美的大数据分析挖掘的工作环境。原创 2015-07-10 10:38:04 · 3159 阅读 · 3 评论 -
hive UDF 过滤字符串中的中英文标点符号
使用hive 过程中 需要做一些UDF的开发,简单贴一个UDF 是用来去除字符串中的所有中英文符号本人JAVA 菜鸟 代码可能不好看勿喷啊。仅供参考package com.fccs.utils;import java.text.ParseException;import org.apache.hadoop.hive.ql.exec.UDF;/*** * 本类是用于字符串替换支原创 2015-04-28 13:32:04 · 5511 阅读 · 0 评论 -
利用sqoop 将 hive/hdfs数据 导入 Oracle中
首先我们要安装好sqoop笔者我用的是sqoop1其次我们需要ojdbc6.jar 这个jar 包下载地址如下:http://www.oracle.com/technetwork/database/enterprise-edition/jdbc-112010-090769.html将解压的包 复制到sqoop安装目录下的lib 目录中最后执行我们的导入命令即可原创 2014-08-08 15:29:00 · 10442 阅读 · 0 评论 -
hive 部署需要注意的几点以及Version information not found 错误解决办法
安装HIVE 过程中要注意1,mysql 是否正常运行2. 创建好mysql 用户并分配好相应的访问权限以及数据库端口号等3. mysql-connector-java-5.1.26-bin.jar 是否放到hive/lib 目录下 建议修改权限为777 (chmod 777 mysql-connector-java-5.1.26-bin.jar)4. 修改conf/hi原创 2014-02-26 16:58:32 · 33321 阅读 · 2 评论 -
HUE 报错误:Filesystem root '/' should be owned by 'hdfs'
HUE 报错误:Filesystem root '/' should be owned by 'hdfs'解决方案如下:修改 文件desktop/libs/hadoop/src/hadoop/fs/webhdfs.py 中的 DEFAULT_HDFS_SUPERUSER = 'hdfs' 更改为你的hadoop用户原创 2014-01-07 17:23:50 · 4121 阅读 · 0 评论 -
集群部署 Tachyon
为了部署运行 Tachyon 首先下载:$ wget http://tachyon-project.org/downloads/tachyon-0.3.0-bin.tar.gz$ tar xvfz tachyon-0.3.0-bin.tar.gz编辑文件tachyon-env.sh 设置TACHYON_UNDERFS_ADDRESS=hdfs://HDFS_HOSTN翻译 2013-11-15 01:42:17 · 2222 阅读 · 0 评论 -
将namenode与SecondNamenode分离在不同的主机上
在部署之前,先说明一下secondarynamenode 是由 master 配置决定 也就是我们在配置文件master 中填写的机器namenode 是由core-site.xml中的fs.default.name这个参数 决定。因此我们开始吧!主机 :x001slave:x002、x0031. 停止hadoopstop-all.sh原创 2013-11-22 19:44:24 · 2560 阅读 · 0 评论 -
推荐系统的循序进阶读物(从入门到精通)
转载一篇文章,作为记录,有时间去看一遍~为了方便大家从理论到实践,从入门到精通,循序渐进系统地理解和掌握推荐系统相关知识。特做了个读物清单。大家可以按此表阅读,也欢迎提出意见和指出未标明的经典文献以丰富各学科需求(为避免初学者疲于奔命,每个方向只推荐几篇经典文献)。1. 中文综述(了解概念-入门篇)a) 个性化推荐系统的研究进展b) 个性化推荐系统评价方法综述2. 英文综述转载 2013-11-20 10:06:11 · 967 阅读 · 0 评论 -
hive 使用streaming 的map 脚本来处理数据
在对hive 进行 select 查询的时候 我们可以编写 python 、php 、c++等脚本来进行相应的数据处理,我们要用到hive 的 TRANSFORM 和 using 看例子:add file /www/FCCS_Data/ComETL/hive/sql_map/demo.py ; from access_fccs select TRANSFORM (t原创 2013-10-22 14:12:22 · 6613 阅读 · 3 评论 -
初识之 Hadoop添加删除节点
添加节点1.修改host 和普通的datanode一样。添加namenode的ip 2.修改namenode的配置文件conf/slaves 添加新增节点的ip或host 3.在新节点的机器上,启动服务 [root@slave-004 hadoop]# ./bin/hadoop-daemon.sh start datanode[root@转载 2013-09-29 16:00:43 · 699 阅读 · 0 评论 -
Hadoop 初识之修改map task数和reduce task数
方法也是借鉴各种谷歌和实际实验经验整理的,希望能帮到需要的朋友map task 的数量即mapred.map.tasks的参数值,用户不能直接设置这个参数。 由Input Split的大小决定,我们可以通过设置 dfs.block.size的值来调整 默认是(64M)如果我们分析的文件是 大文件 建议将该参数调大点,注意每次修改都要重新格式化才能生效,但这样会导致所有数据丢失原创 2013-09-17 17:22:32 · 2602 阅读 · 0 评论 -
hadoop集群默认配置和常用配置
获取默认配置配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:1.选择相应版本的hadoop,下载解压后,搜索*.xml,找到core-default转载 2013-09-16 17:27:08 · 1215 阅读 · 0 评论 -
hadoop初识之mapreduce架构
架构图作业提交流程术语:•job:用户的每一个计算请求,就称为一个作业。•JobTracker:用户提交作业的服务器,同时,它还负责各个作业任务的分配,管理所有的任务服务器。•TaskTracker:任劳任怨的工蜂,负责执行具体的任务。•Task:每一个作业,都需要拆分开了,交由多个服务器来完成,拆分出来的执行单位,就称为任务原创 2013-09-06 15:10:34 · 944 阅读 · 0 评论 -
hadoop初识之端口说明
默认端口 设置位置 描述信息8020 namenode RPC交互端口8021 JT RPC交互端口50030 mapred.job.tracker.http.address JobTracker原创 2013-09-06 08:35:41 · 1169 阅读 · 0 评论 -
hadoop + hive apache nginx 访问日志分析 (一)
也是初识,陆续的看了几篇文档懵懵懂懂的做了个实验一共三台机器 一台master 两台slavehive 安装在master 上(安装方法待整理)同时也需要安装mysql修改hive的conf目录下的hive-site.xml增加hive.aux.jars.pathfile:///opt/hive/lib/hive-contrib-0.10.0.jarf原创 2013-09-06 00:28:57 · 4155 阅读 · 1 评论 -
配置HUE 遇到Error in sasl_client_start (-4) SASL(-4): no mechanism available: No worthy mechs found
错误:Error in sasl_client_start (-4) SASL(-4): no mechanism available: No worthy mechs found解决方法:yum install cyrus-sasl-plain cyrus-sasl-devel cyrus-sasl-gssapi原创 2016-03-22 13:17:38 · 10436 阅读 · 1 评论