大数据
文章平均质量分 51
鹭岛猥琐男
耐得住寂寞,才能守得住繁华
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark1.6.3配置
1.本来想写安装spark2.3的,但是由于配置Hadoop时候jdk用的是1.7,而Spark2.3只支持JDK1.8。如果spark和Hadoop安装的JDK版本不一样,在yarn上运行spark会报错。所以记录的是spark1.x的安装。2.特别注明下,spark不要用CDH版本,有些jar包找不到,直接用Apache版本就好。3.解压后的spark 目录如下:[zuowei....原创 2018-12-24 19:40:05 · 742 阅读 · 0 评论 -
VMware虚拟机搭建
仅此记录Android转大数据开发的每一步~~准备工作:1、VMware版本: 当时下载的是14.0.0。现在最新的是14.1.1下载地址:http://download3.vmware.com/software/wkst/file/VMware-workstation-full-14.1.1-7528167.exe2、CentOS...原创 2018-04-15 20:50:58 · 22562 阅读 · 2 评论 -
Hive的外部表
1、在原来表emp的路径下再创建一个emp1的表:create table if not exists emp1(empno int,enname string,job string,mgr int,hiredate string,sal double,comm double,deptno int)row format delimited fields terminate...原创 2018-07-25 10:11:43 · 1126 阅读 · 0 评论 -
Hadoop分布式集群搭建
1、前期准备条件,三台主机:master,slave1,slave22、三台机器在集群中所担任的角色: master:namenode,datanode,nodemanager,historyserver slave1:resoucemanaer,datanode,nodemanagerslave2:secondaryname,datanode,nodemana...原创 2018-05-12 21:39:17 · 361 阅读 · 0 评论 -
HBase相关知识
一、HBase数据模型https://www.cnblogs.com/csyuan/p/6543018.html二、HBase 物理模型:https://blog.youkuaiyun.com/gg782112163/article/details/53523660a. Table 中所有的行都按照 row key 的字典序进行排列b. Table 在行的方向上分割为多个 Region...原创 2018-08-31 19:36:34 · 227 阅读 · 0 评论 -
HBase rowkey 设计原则
1、总的原则:避免热点现象,提高读写性能2、长度原则:最长64kb,一般建议10~100个字节,建议不超过16字节3、散列原则:将时间上连续产生的rowkey散列化,以避免集中到极少数的region上4、唯一原则:必须在设计上保证rowkey的唯一性...原创 2018-09-03 14:40:20 · 1190 阅读 · 0 评论 -
Hiveserver2
作用:将hive变成一种server服务端对外开放,多个客服端可以连接启动hiveserver:bin/hiveserver2启动后:启动连接:bin/beeline -u jdbc:hive2://master.cdh.com:10000 -n root -p 123456结果如下:查询表:0: jdbc:hive2://master.cdh.c...原创 2018-07-30 10:55:23 · 591 阅读 · 0 评论 -
Hive用户自定义函数
UDF:用户自定义函数,User Defined Function编程步骤:1、继承org.apache.hadoop.hive.ql.UDF2、需要实现evaluate函数;evaluate函数支持重载;注意事项:1、UDF必须要有返回值,可以返回null,但是返回类型不能为void;2、UDF中常用Text/LongWritable等类型,不推荐使用java类型;例...原创 2018-07-28 10:02:48 · 742 阅读 · 0 评论 -
Hive表数据的查询
文中的两张表emp和dept:emp数据如下:7499 ALLEN SALESMAN 7698 1981-02-20 1600.0 300.0 307521 WARD SALESMAN 7698 1981-02-22 1250.0 500.0 307566 JONES MANAGER 7839 1981-04-02 2975.0 0.0 207654 MA...原创 2018-07-25 20:45:13 · 11644 阅读 · 0 评论 -
Hive的分区表
1、创建分区表:分区表的分区是虚拟的create table if not exists emp_part(empno int,enname string,job string,mgr int,hiredate string,sal double,comm double,deptno int)partitioned by (date string)row format ...原创 2018-07-25 15:51:18 · 431 阅读 · 0 评论 -
Hive的数据库和表的操作
1.建库、删除库CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_value, ...)]; create database...原创 2018-07-19 14:33:37 · 465 阅读 · 0 评论 -
配置hive
1、查询当前系统是否有mysql相关,并删除2、在线安装mysql3、查询mysql服务是否开启4、启动并设置开机启动5、设置mysql管理员root的密码并进入mysql6、设置mysql链接的权限 修改mysql 数据库中的user表: 查询数据库: 查询表:...原创 2018-07-05 18:43:36 · 425 阅读 · 0 评论 -
Linux安装jdk
仅此记录Android转大数据开发的每一步~~ 先卸载自带的openJdk:rpm -qa | grep javasudo rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-1.50.1.11.5.el6_3.x86_64sudo rpm -e --nodeps java-1.7.0-openjdk-1.7.0.9-...原创 2018-04-22 07:06:29 · 253 阅读 · 0 评论 -
配置SSH免密码登录
仅此记录Android转大数据开发的每一步~~ 1、进入.ssh目录2、生成公钥/私钥对前先清空 .ssh目录 3、生成公钥/私钥对:$ ssh-keygen -t rsa 遇到提示都按回车,最后生成两个文件。 4、将生成的公钥拷贝到相应的主机,遇到提示依次输入yes和密码。...原创 2018-04-20 19:40:47 · 485 阅读 · 0 评论 -
Linux添加用户
仅此记录Android转大数据开发的每一步~~ 1、 添加用户:useradd 用户名 2、设置密码:passwd 用户名 3、切换用户:su - 用户名 ...原创 2018-04-18 20:15:10 · 325 阅读 · 0 评论 -
Linux虚拟机基本环境配置(上)
仅此记录Android转大数据开发的每一步~~虚拟机的搭建,请参考:VMware虚拟机搭建 主要配置:ip地址,主机名,网络映射。IP地址: 先查看当前的ip地址:重新启动后的ip地址:从以上两张截图可以看出两次的ip地址不一样,因为当前的ip地址是自动获取的。为了方便后续的学习和测试,ip地址必须设置为固定不变的。设置之前先了解下虚拟机的网络连...原创 2018-04-17 22:09:51 · 11294 阅读 · 0 评论 -
Linux虚拟机基本环境配置(下)
仅此记录Android转大数据开发的每一步~~ 按照上一篇的设置完成以后,尝试访问外网的话,会发现无法访问。这时候还需要设置DNS域名解析:1、进入网卡的配置文件:vi /etc/sysconfig/network-scripts/ifcfg-eth02、设置DNS解析:DNS1=网关IP地址(看上一篇截图)3、重启网络(可以用命令:s...原创 2018-04-18 18:57:14 · 1898 阅读 · 0 评论 -
HBase与MapReduce集成操作
1、目的:将HBase中stu_info表中的name放到表user_info中2、TestHbaseMapper:package com.zzw.hbase.mapreduce;import java.io.IOException;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUt...原创 2018-09-02 16:15:53 · 1099 阅读 · 0 评论 -
大数据协作框架之Flume
一、概述Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 二、安装1、解压:tar -zxvf flume-ng-1...原创 2018-08-06 15:22:25 · 435 阅读 · 0 评论 -
Linux环境下的MapReduce程序
接上一篇文章:Linux环境下配置Eclipse和Maven此篇里面的数据是我参与开发的一个微信公众号的用户信息,通过MapReduce来统计每个月的注册人数。(由于涉及到用户隐私,所以数据不公开)。在该表中,有一列create_time,这是用户注册的时间。1、将/opt/cdh5.14.2/hadoop-2.6.0/etc/hadoop目录下的三个文件复制到re...原创 2018-05-20 09:23:39 · 3390 阅读 · 0 评论 -
基于elasticsearch6.5.1安装head插件
1.因为head是一个用于管理Elasticsearch的web前端插件,该插件在es5版本以后采用独立服务的形式进行安装使用(之前的版本可以直接在es安装目录中直接安装),因为需要安装nodejs、npm。所有的机器都要有同样的配置步骤。sudo yum -y install nodejs结果如下:2.下载yum源参考来源:http://www.cnblogs.com/fp...原创 2018-12-06 20:35:49 · 508 阅读 · 0 评论 -
mahout在数据集的操作
1.下载mahout0.13.02.解压3.配置环境变量#MAHOUT_HOMEexport MAHOUT_HOME=/opt/cdh5.15.0/mahout-0.13.0export MAHOUT_CONF_DIR=$MAHOUT_HOME/confexport PATH=$PATH:$MAHOUT_HOME/conf:$MAHOUT_HOME/bin4. 下载数据...原创 2018-12-03 19:57:21 · 586 阅读 · 0 评论 -
MapReduce结果插入Hbase
1.在HBase上创建table 'wc'create 'wc','cf1'2.wordcount的jobpackage zzw.cn;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfigu...原创 2018-12-02 17:33:52 · 416 阅读 · 0 评论 -
HBase的相关操作
1、启动shell命令行[root@master hbase-1.2.0]# bin/hbase-daemon.sh start masterstarting master, logging to /opt/cdh5.14.2/hbase-1.2.0/bin/../logs/hbase-root-master-master.cdh.com.out[root@master hbase-1....原创 2018-08-30 13:51:11 · 262 阅读 · 0 评论 -
HBase 分布式集群搭建
1、解压HBase2、修改hbase-env.sh##/**# * Licensed to the Apache Software Foundation (ASF) under one# * or more contributor license agreements. See the NOTICE file# * distributed with this work for ...原创 2018-08-30 11:37:10 · 444 阅读 · 0 评论 -
Oozie时区设置以及Coordinator
一、时区配置1、删除localtime文件rm /etc/localtime2、用localtime的链接到/usr/share/zoneinfo/Asia/Shanghailn -sf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime3、关闭oozie4、配置oozie-site.xml<?xml versi...原创 2018-08-17 16:28:09 · 863 阅读 · 0 评论 -
Oozie workflow之Hive Action
1、将examples中的hive复制到oozie-apps目录下,并重命名/opt/cdh5.14.2/oozie-4.1.0/oozie-apps/hive-select[root@master hive-select]# lltotal 20-rw-r--r-- 1 root root 1000 Aug 4 13:52 job.properties-rw-r--r-- 1 r...原创 2018-08-15 09:01:18 · 896 阅读 · 0 评论 -
大数据协作框架之Oozie
一、配置:1、下载并解压:http://archive.cloudera.com/cdh5/cdh/5/oozie-4.1.0-cdh5.14.2.tar.gztar -zxvf oozie-4.1.0-cdh5.14.2.tar.gz -C /opt/cdh5.14.2/解压完目录如下:[root@master oozie-4.1.0]# lltotal 1284320...原创 2018-08-10 08:32:22 · 560 阅读 · 0 评论 -
Kafka1.1.1搭建
1.下载Kafka1.1.12.在kafka的目录下创建文件夹data[zuowei.zhang@master kafka-1.1.1]$ lltotal 48drwxr-xr-x 3 zuowei.zhang zuowei.zhang 4096 Jul 7 12:15 bindrwxr-xr-x 2 zuowei.zhang zuowei.zhang 4096 Jul 7...原创 2019-01-03 19:49:27 · 644 阅读 · 0 评论 -
创建DataFrame的几种方式
1.读取json格式的文件创建DataFramejson文件如下:{"name":"Fanbingbing", "score":100}{"name":"Xuruyun", "score":99}{"name":"Liangyongqi", "score":74}Java代码:package demo.java.cn;import org.apache.spark.Sp...原创 2018-12-30 16:40:33 · 4943 阅读 · 0 评论 -
集群的时间同步
仅此记录Android转大数据开发的每一步~~ 由于Linux运行时间久了,会造成时间的误差,需要配置时间同步。在没有联网的情况下,通常都是将其中的一台作为时间服务器,这样时间就能一致。 1、查询ntp相关的包:rpm -qa | grep ntp,以及所对应的位置,我们需要的是ntpdate 非root用户记得加sudo...原创 2018-05-10 23:15:20 · 4807 阅读 · 0 评论 -
Linux环境下配置Eclipse和Maven
1、下载Eclipse:http://mirrors.ustc.edu.cn/eclipse/technology/epp/downloads/release/oxygen/3a/eclipse-jee-oxygen-3a-linux-gtk-x86_64.tar.gz2、下载Maven:http://mirrors.tuna.tsinghua.edu.cn/apache/maven/...原创 2018-05-14 20:15:24 · 4341 阅读 · 4 评论 -
HDFS高可用性HA环境搭建
1、下载相应的Zookeeper2、配置zookeeper:zookeeper-3.4.5/conf/zoo.cfg# The number of milliseconds of each ticktickTime=2000# The number of ticks that the initial # synchronization phase can takeinitLimi...原创 2018-07-01 16:52:17 · 492 阅读 · 0 评论 -
ElasticSearch安装
1.下载6.5.1版本的ElasticSearchhttps://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.5.1.tar.gz2.确保当前用户是非root用户,因为root用户无法启动ElasticSearch。3.解压,目录如下4.配置cofig目录下的elasticsearch.yml文件...原创 2018-12-05 19:33:04 · 235 阅读 · 0 评论 -
大数据协作框架之Sqoop
一、概述: 1、Sqoop:SQL-to-Hadoop 2、连接传统关系型数据库和Hadoop的桥梁: a、把关系型数据库的数据导入到Hadoop与其相关的系统中(如Hive,Hbase) b、把数据从Hadoop系统里抽取并导出到关系型数据库里 3、利用MapReduce加快数据传输速度,Sqoop中只有Map没有reduce。二、安装sq...原创 2018-07-30 16:16:48 · 581 阅读 · 0 评论 -
配置storm
1、确保集群中已经配置好zookeeper2、下载storm,并解压3、配置storm_env.ini## Licensed to the Apache Software Foundation (ASF) under one# or more contributor license agreements. See the NOTICE file# distributed wi...原创 2018-09-05 18:20:33 · 795 阅读 · 0 评论 -
Redis安装
1.安装gcc tclsudo yum -y install gcc tcl2. 解压redis包,解压后的目录如下:3. 到deps目录下编译 jemalloc,lua,linenoise,hiredismake jemalloc lua linenoise hiredis4.到redis的根目录下执行make5.安装到指定位置:make PR...原创 2018-11-02 20:02:35 · 313 阅读 · 0 评论
分享