
大数据学习
文章平均质量分 73
H_Hao
这个作者很懒,什么都没留下…
展开
-
Windows环境中MR任务的三种运行方式
本地运行 解压hadoop安装tar包hadoop-2.5.0-cdh5.3.6.tar.gz,下载地址:http://archive.cloudera.com/cdh5/cdh/5/设置环境变量HADOOP_HOME,需要确保当前用户可以访问(在eclipse中可以访问到) 解压hadoop-common-2.2.0-bin-32.rar压缩包,将压缩包中的文件全部复制到${转载 2017-08-22 09:20:51 · 3855 阅读 · 0 评论 -
Oozie 安装部署
-》主要是oozie server的部署 -》oozie-4.0.0 http://oozie.apache.org/ ext-2.2.zip是ExtJS2.2包用于Oozie的Web控制下载解压tar -zxvf oozie-4.0.0-cdh5.3.6.tar.gz -C /opt/cdh-5.3.6/配置hadoop的代理core-site.xml <!-原创 2016-12-09 10:44:35 · 1072 阅读 · 0 评论 -
错误积累
对/etc/目录做一个压缩备份,命名为 “年月日etc.tar.gz”(年月日:为当时的时间) tar -zcvf /2016_10_26etc.tar.gz /etc/tar -zcvf `date +"%Y_%m_%d"`etc.tar.gz /etctar -zcvf $(date +%Y_%m_%d)etc.tar.gz /etc/等原创 2016-11-02 10:45:40 · 335 阅读 · 0 评论 -
Hive连接与编程
MySQLServer 服务端 Client 客户端HiveServer 后端运行$ bin/hiveserver2 前端运行 bin/hive --service hiveserver2企业中使用管理页面点击启动$ bin/hiveserver2 & $ nohup bin/hiveserver2 & >> hiveserver.logCli原创 2016-11-22 21:58:49 · 490 阅读 · 0 评论 -
Hive中UDF编程
开发 UDF 步骤,实现小写转大写pom.xml 加入Hive 依赖JAR包创建类继承UDF方式名称: evaluate返回值不能为null一定要测试代码package om.beifeng.bigdata;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.hive.ql.exec.UDF;原创 2016-11-22 21:47:21 · 645 阅读 · 0 评论 -
Hive数据加载与保存
使用 load 方式加载数据到 Hive 表中加载本地文件到hive表 load data local inpath '/opt/datas/emp.txt' into table defalult.emp;分区表:load data local inpath 'local-file-full-path' into table tableName partition (part-column原创 2016-11-22 21:29:01 · 872 阅读 · 0 评论 -
hive的表的创建及测试
hive创建表的三种方式第一种:普通方式创建语句create table if not exists student(num int,name string)row format delimited fields terminated by'\t'stored as textfile;从本地加载数据:load data local inpath '/opt/datas/student.原创 2016-11-22 20:10:12 · 2964 阅读 · 0 评论 -
hive的安装部署及测试,MySql安装
Hive部署上传hive安装包到系统 选用0.13版本:apache-hive-0.13.1-bin.tar.gz由于hive依赖于Hadoop框架,所以首先启动Hadoop相关守护进程 -》namenode -》datanode -》Resourcemanager -》nodemanager -》historyser原创 2016-11-22 19:17:00 · 1061 阅读 · 0 评论 -
MapReduce 高级应用练习:二次排序及Join
二次排序 -》第一点组合key,key是一个组合的字段(自定义数据类型) -》继承WrtiableComparable -》第二点保证原来的分区不变,需要自定义分区规则 -》继承partitioner -》第三点保证原来的分组不变,需要自定义分组规则 -》继承RawComparator创建文件路径 bin/hdfs dfs -mkdir -p sor原创 2016-11-22 17:20:33 · 639 阅读 · 0 评论 -
HBase安装及简单使用
一、HBase伪分布式安装依赖 hdfs:启动hdfszookeeper:bin/zkServer.sh start下载解压 tar -zxvf hbase-0.98.6-hadoop2-bin.tar.gz -C /opt/modules/ conf/zoo.cfg 将conf/zoo.cfg 中的dataDir的目录修改为:dataDir=/opt/modules/zoo原创 2016-12-12 22:05:25 · 811 阅读 · 0 评论 -
Oozie实例
一、运行官方实例 解压Oozie目录下的oozie-examples.tar.gz tar -zxvf oozie-examples.tar.gz解压完成后会创建一个examples文件夹将程序上传到HDFS的家目录 bin/hdfs dfs -put /opt/cdh-5.3.6/oozie-4.0.0-cdh5.3.6/examples examples运行官方mapreduce修改j原创 2016-12-09 16:57:57 · 5067 阅读 · 0 评论 -
Hue使用(Apache Hadoop UI系统)
一、Hue的安装部署Hue版本:cdh5.3.6-hue-3.7.0需要编译才能使用需要联网依赖(针对不同Linux版本) antasciidoccyrus-sasl-develcyrus-sasl-gssapigccgcc-c++krb5-devellibtidy (for unit tests only)libxml2-devellibxslt-develmvn (原创 2016-12-09 22:10:37 · 10590 阅读 · 2 评论 -
IDEA安装Scala,版本对应
IDEA安装Scala,版本对应一、下载插件1、找到与IntelliJ IDEA对应的scala版本2.在弹出的对话框中点击Plugins,然后点击Install JetBrains plugin3.在搜索框中输入scala,点击scala,在对话框右边出现该IntelliJ对应的scala版本,从图中看到该版本的IntelliJ对应的scala版本是v20原创 2017-07-31 10:42:51 · 32633 阅读 · 4 评论 -
SCALA与IDEA安装
Scala安装(linux上安装)JDK安装好上传文件:ideaIC-14.1.1.tar.gz,scala-2.10.4.tgz,scala-intellij-bin-1.4.15.zip解压scala-2.10.4.tgz(linux上,windows是zip结尾) tar -zxvf /opt/software/scala-2.10.4.tgz 给解压后的路径创建一个软连接/opt/m原创 2017-01-08 11:24:32 · 1400 阅读 · 0 评论 -
Spark安装 测试
Spark与Mapreduce对比 MapReduce Spark 数据存储结构:磁盘hdfs文件系统的split 使用内存构建弹性分布式数据集RDD, 对数据进行运算和cache 编程范式: Map + Reduce DAG(有向无环图): Transformation + action 计算中间数据落磁盘, io及序列化、 反序列化代价大 计算中间数据在内存中维护,原创 2017-02-15 12:10:07 · 855 阅读 · 1 评论 -
CentOS下eclipse安装、maven配置
上传三个文件 安装maven 解压:tar -zxf apache-maven-3.0.5-bin.tar.gz -C /opt/modules/转到maven目录:cd /opt/modules/apache-maven-3.0.5/配置maven环境变量 sudo vi /etc/profile##MAVEN_HOMEexport MAVEN_HOME=/opt/modul原创 2016-10-31 21:39:36 · 2323 阅读 · 4 评论 -
Flume
Flume Agent Flume Agent的配置被存储在一个本地配置文件,这是一个根据java属性文件格式的文本文件,在这个配置文件中,包括了对source、channel、sink的属性配置,和其相关联形成数据流的配置。 Flume Agent实时监控端口,收集数据,将其以日志的形式打印在控制台。 一个source可以分发到多个channel,一个sink取一个chann原创 2016-12-04 21:52:28 · 1473 阅读 · 0 评论 -
Nginx安装使用
Nginx 一个高性能的web服务器,对于静态资源的访问速度非常快 版本:http://tengine.taobao.org/tengine 使用源码编译进行安装命令: ===> 使用root用户进行安装# su root进入软件所在目录cd /opt/modules上传tengine-2.0.2.tar.gz到/opt/softwares文件夹中解压tar -zxvf /o原创 2017-01-05 11:01:47 · 381 阅读 · 0 评论 -
Phoenix
一、Phoenix的安装编译修改pom->针对于Apache版本 <hbase.version>0.98.6-hadoop2</hbase.version> <hadoop-two.version>2.5.0</hadoop-two.version>针对CDH版本:需要添加CDH源解压源码包,进入路径,进行编译 mvn clean package -DskipTests编译完成原创 2016-12-22 11:01:35 · 525 阅读 · 0 评论 -
HBase高级
一、hbase中的常见属性 VERSIONS:指版本数 MIN_VERSIONS=> '0':最小版本数 TTL=> 'FOREVER':版本存活时间 假设versions=10,mini_version=4 到达TTL时间后,version-mini_version=6,最老的6个版本的值原创 2016-12-22 09:45:19 · 3027 阅读 · 0 评论 -
HBaseAPI使用,分布式搭建,多Master
一、hbase Java client添加maven依赖<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <version>0.98.6-hadoop2</version></dependency><dependency> <groupId>org.apac原创 2016-12-21 22:07:13 · 1212 阅读 · 0 评论 -
Flume安装及GitHub使用
一、Flume的安装部署下载解压tar -zxvf flume-ng-1.5.0-cdh5.3.6.tar.gz -C /opt/cdh-5.3.6/重命名mv apache-flume-1.5.0-cdh5.3.6-bin flume-1.5.0-cdh5.3.6-bin修改配置文件 flume-env.sh.template 重命名为 flume-env.sh export JAV原创 2016-12-04 20:31:01 · 1264 阅读 · 0 评论 -
论坛案例分析及扩展(三)
数据分析流程上传文件 把日志数据上传到HDFS中进行处理,可以分为以下几种情况: 如果是日志服务器数据较小、压力较小,可以直接使用shell命令把数据上传到HDFS中;如果是日志服务器数据较大、压力较大,使用NFS在另一台服务器上上传数据;如果日志服务器非常多、数据量大,使用flume进行数据处理;数据清洗 使用Mapreduce对HDFS中的原始数据进行清洗,以便后续进行统计分析;原创 2016-12-04 19:36:01 · 1038 阅读 · 0 评论 -
网站流量日志复杂分析(二)
要求: 字段解释: 创建表:DROP TABLE IF EXISTS yhd_log_parquet ;CREATE TABLE yhd_log_parquet(id string,url string,referer string,keyword原创 2016-12-04 10:35:56 · 1100 阅读 · 0 评论 -
YARN 配置、启动命令、 WEB UI 页面
报错要首先去看日志文件的报错信息 hadoop-2.5.0/logs/查看具体的日志文件查看以.log 结尾的文件设置reduce 的获取数据的方式,yarn-site.xml<property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>指定 Resource原创 2016-10-30 20:15:24 · 31273 阅读 · 1 评论 -
Hadoop_Linux环境部署
安装虚拟机+操作系统:VMware、CentOS设置基础环境三要素:IP(NAT、静态)、主机名、映射(包括本地) 主机名: IP: 将IP设置成固定值修改映射网络配置:设置DNS解析,Ping通外网创建普通用户:useradd 用户名、passwd 用户名 useradd beifeng passwd beifeng 密码设置为beifeng设置Sudo权限原创 2016-10-30 14:20:01 · 371 阅读 · 0 评论 -
MapReduce Shuffle过程
一、Map Shuffle主要做了哪些事?哪些可以设置及如何设置?1、 分区partitioner ->>可以自定义规则 线程首先根据最终要传的reducer把数据划分成相应的分区(partition)。 -》决定了map输出的数据,被哪个reduce任务进行处理 -》方便与reduce拷贝数据,直接拷贝划分好的区域数据就可以了 2、排序sort->>可以自定义规则 在原创 2016-11-04 17:36:16 · 1069 阅读 · 0 评论 -
Zookeeper分布式集群部署
一、单机模式解压zk安装包 tar -zxf zookeeper-3.4.5.tar.gz -C /opt/modules/配置zoo.cfg 重命名zoo_sample.cfg为zoo.cfg,并修改(修改ZK本地存储路径),先创建路径:mkdir -p data/zkDatadataDir=/opt/modules/zookeeper-3.4.5/data/zkData启动ZK b原创 2016-11-08 11:00:27 · 716 阅读 · 0 评论 -
分布式集群配置SSH免密码登录,时间同步
一、配置SSH免密码登录(三台都要配置)首先进入用户目录.ssh cd /home/beifeng/.ssh删除目录下的所有文件:rm -rf ./*执行命令:ssh-keygen -t rsa三台服务器执行:ssh-copy-id hostxxx 每台机器都执行一下如下命令: ssh-copy-id hadoop-senior01.ibeifeng.com ssh-copy-i原创 2016-11-08 10:29:56 · 954 阅读 · 0 评论 -
Hadoop 2.x分布式集群部署
一、克隆虚拟机注意点 必须先关机(关闭所有的服务进程)选择完整的克隆修改IP、主机名、映射修改主机名 sudo vi /etc/sysconfig/network修改IP 把eth1改为eth0 sudo vi /etc/udev/rules.d/70-persistent-net.rules 将eth0的那一条删掉,把mac地址拷贝出来00:0c:29:49:52:2a,将eth原创 2016-11-08 10:07:39 · 1520 阅读 · 0 评论 -
MapReduce 分析网站基本指标
理解【网站基本指标】的几个概念 1PV:网页浏览量-》每天 每周 每月 -》用户每打开一次就记录1次1UV:独立访客数—》userID –>cookie-》过期时间2VV: 访客的访问次数3IP:独立IP数分析需求,依据MapReduce 编程模板编程PV程序1具体代码package com.ibeifeng.bigdata.senior.hadoop.原创 2016-11-04 17:46:54 · 1161 阅读 · 0 评论 -
在MapReduce中连接Hbase数据
1.在Hbase中创建EMPLOYEE表:create'EMPLOYEE','cf1',并创造一批销售订单数据,包含但限于产品id、销售员id、销售时间、销售额;2.在Hbase中创建TotalSale表:create 'TotalSale','cf1',并创造一批销售数据,包括但不限于用户id、销售总额;3.编写mapper、reducer和driver源代码;4.编写testD原创 2016-08-24 20:53:01 · 1532 阅读 · 0 评论 -
开发Mapreduce程序
将数据复制到HDFS中启动Hadoop,复制loaddata1文件到“/home/wcbdd/Desktop/loaddata1”;使用命令hadoop fs –copyFromLocal 源文件 目标目录打包完成后导出jar执行:hadoop jar linecount.jar com.trendwise.java.linecount/home/wcbdd/Deskto原创 2016-08-24 20:47:06 · 291 阅读 · 0 评论 -
配置 JobhistoryServer 历史服务器,日志聚集功能,HDFS 文件系统用户权限检查,取消HDFS警告提示
配置 JobhistoryServer 历史服务器historyServer:查看已经完成的历史作业记录指定配置属性:mapred-site.xml “` mapreduce.jobhistory.address hadoop-senior01.ibeifeng.com:10020 <property> <name>mapre原创 2016-10-30 21:18:27 · 3875 阅读 · 0 评论 -
Hadoop单机本地模式
首先把服务进程都先关掉sbin/hadoop-daemon.sh stop namenode sbin/hadoop-daemon.sh stop datanode sbin/hadoop-daemon.sh stop secondarynamenodesbin/yarn-daemon.sh stop resourcemanagersbin/yarn-daemon.sh stop nodem原创 2016-10-31 16:38:09 · 390 阅读 · 0 评论 -
Hive日志分析案例(一)
例如: 在实际的项目中,需要分析网站服务器的日志文件数据 需求: 统计每日六项指标 浏览量PV、访客数UV、IP数、跳出率、平均访问时长、转化次数 分析: -1,原日志文件数据 job-mr 清洗:MapReduce hdfs-files -2,H原创 2016-12-03 21:46:08 · 5441 阅读 · 2 评论 -
Snappy压缩
创建路径及上传数据 不设置压缩运行: bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar \ wordcount mapreduce/wordcount/input mapreduce/wordcount/output 设置压缩运行: bin/yarn jar \ share/原创 2016-12-03 17:30:00 · 713 阅读 · 0 评论 -
Sqoop配置使用
SQOOP:底层是Mapreduce,利用Mapreduce加快数据传输速度,批处理方式进行数据传输,并且只有Map Task任务。 Sqoop Client:命令行 Sqoop安装安装 解压:tar -zxf sqoop-1.4.5-cdh5.3.6.tar.gz -C /opt/cdh-5.3.6/sqoop-env-template.sh –》sqoop-env.shexport原创 2016-12-03 17:08:22 · 3398 阅读 · 0 评论 -
Hive使用脚本加载数据
方式一:直接写在脚本中load_track_logs.sh:#!/bin/sh## 环境变量生效. /etc/profile## HIVE HOMEHIVE_HOME=/opt/cdh-5.3.6/hive-0.13.1-cdh5.3.6## 日志目录LOG_DIR=/datas/tracklogs## 获取昨天的日期yesterday=`date -d -1days '+%Y%m%d'`原创 2016-12-03 16:38:57 · 1920 阅读 · 0 评论 -
CDH配置(Zookeeper,HADOOP,Hive)
第一步:ZOOKEEPER(多台机器,时间同步)在/opt下创建chd目录:sudo mkdir cdh-5.3.6更改所属用户与用户组:sudo chown beifeng:beifeng /opt/* 上传文件到/opt/software目录下:zookeeper-3.4.5-cdh5.3.6.tar,hadoop-2.5.0-cdh5.3.6.tar,hive-0.13.1-cdh5.3.6原创 2016-11-30 19:44:46 · 5001 阅读 · 0 评论