
Linux
文章平均质量分 66
liangzelei
这个作者很懒,什么都没留下…
展开
-
VMware虚拟机系统与Window建立网络通信
查看VMware中虚拟网络VMware软件->编辑->虚拟网络编辑器设置Windows虚拟网络连接控制面板->网络和 Internet->网络连接注意设置的IP、GATEWAY、DNS都要与虚拟机的配置一致设置Linux的网络配置使用root用户编辑文件,命令如下vim /etc/sys原创 2018-04-08 11:12:18 · 3507 阅读 · 0 评论 -
flume练习记录
flume-1监控日志,flume-1的数据传送给flume-2,flume-2将数据追加到本地文件,同时将数据传输到flume-3flume-work1-1.conf# Name the components on this agenta1.sources = r1a1.channels = c1 c2a1.sinks = k1 k2# copy duohea1.sources.r1.selec...原创 2018-05-06 13:06:55 · 303 阅读 · 0 评论 -
HBase-MapReduce
通过HBase的相关JavaAPI,我们可以实现伴随HBase操作的MapReduce过程,比如使用MapReduce将数据从本地文件系统导入到HBase的表中,比如我们从HBase中读取一些原始数据后使用MapReduce做数据分析。1) 查看HBase的MapReduce任务的所需的依赖$ bin/hbase mapredcp2) 执行环境变量的导入$ export HBASE_HOME=/h...原创 2018-05-13 13:15:18 · 1124 阅读 · 0 评论 -
HBase与Hive集成使用
HBase版本 1.3.1Hive版本 1.2.1环境准备$ exportHBASE_HOME=/home/admin/modules/hbase-1.3.1$ exportHIVE_HOME=/home/admin/modules/apache-hive-1.2.2-bin$ ln -s$HBASE_HOME/lib/hbase-common-1.3.1.jar $HIVE_HOME/lib/h...原创 2018-05-13 15:55:37 · 1198 阅读 · 0 评论 -
Sqoop的安装
Sqoop 简介Apache Sqoop(TM)是一种旨在有效地在 Apache Hadoop 和诸如关系数据库等结构化数据存储之间传输大量数据的工具。Sqoop 于 2012 年 3 月孵化出来,现在是一个顶级的 Apache 项目。最新的稳定版本是 1.4.6。Sqoop2 的最新版本是 1.99.7。请注意,1.99.7 与 1.4.6 不兼容,且没有特征不完整,它并不打算用于生产部署。Sq...原创 2018-05-14 09:06:30 · 145 阅读 · 0 评论 -
Sqoop基本使用
导入数据在 Sqoop 中,“导入”概念指:从非大数据集群(RDBMS)向大数据集群(HDFS,HIVE,HBASE)中传输数据,叫做:导入,即使用 import 关键字。、RDBMS 到 到 HDFS1) 确定 Mysql 服务开启正常2) 在 Mysql 中新建一张表并插入一些数据$ mysql -uroot -p123456mysql> create database company;...原创 2018-05-14 09:57:57 · 584 阅读 · 0 评论 -
Sqoop常用命令及参数
常用命令列举序号命令类说明1importImportTool将数据导入到集群2exportExportTool将集群数据导出3codegenCodeGenTool获取数据库中某张表数据生成Java并打包Jar4create-hive-tableCreateHiveTableTool创建 Hive 表5evalEvalSqlTool查看 SQL 执行结果6import-all-tablesImpor...原创 2018-05-14 10:22:07 · 6931 阅读 · 0 评论 -
基于CentOS的Hadoop源码编译支持Snappy压缩
前期准备工作jar包准备(hadoop源码、JDK7 、 maven、 ant 、protobuf)hadoop-2.7.2-src.tar.gzjdk-8u171-linux-x64.tar.gzsnappy-1.1.3.tar.gzapache-maven-3.0.5-bin.tar.gzprotobuf-2.5.0.tar.gzJar包安装请以root用户执行程序JDK解压、配置环境变量 J...原创 2018-05-07 20:25:14 · 389 阅读 · 0 评论 -
克隆虚拟机时修改IP
修改为静态ip在终端命令窗口中输入[root@hadoop101 /]#vim/etc/udev/rules.d/70-persistent-net.rules进入如下页面,删除eth0该行;将eth1修改为eth0,同时复制物理ip地址修改IP地址[root@hadoop101 /]# vim/etc/sysconfig/network-scripts/ifcfg-eth0需要修改的内容有5项:...原创 2018-05-21 10:33:15 · 2398 阅读 · 0 评论 -
Linux设置普通 用户具有 root
基于CentOS1)修改配置文件修改 /etc/sudoers 文件,找到下面一行,在 root 下面添加一行,如下所示:## Allow root to run any commands anywhereroot ALL=(ALL) ALLusername ALL=(ALL) ALL或者配置成采用 sudo 命令时,不需要输入密码## Allow root to run any commands...原创 2018-05-21 11:01:41 · 937 阅读 · 0 评论 -
RDD算子 转换算子
RDD 中的所有转换都是延迟加载的,也就是说,它们并不会直接计算结果。相反的,它们只是记住这些应用到基础数据集(例如一个文件)上的转换动作。只有当发生一个要求返回结果给 Driver 的动作时,这些转换才会真正运行。这种设计让 Spark 更加有效率地运行。常用的Transformationmap,filter,flatMap,mapPartitions,mapPartitonsWithIndex...原创 2018-06-04 15:55:17 · 1822 阅读 · 0 评论 -
RDD算子 动作算子
reduce(func):通过 func 函数聚集 RDD 中的所有元素,这个功能必须是可 交换且可并联的scala> val rdd1 = sc.makeRDD(1 to 10,2)rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[85] atmakeRDD at <console>:24scala...原创 2018-06-04 21:00:38 · 496 阅读 · 0 评论 -
数值RDD的统计操作
Spark 对包含数值数据的 RDD 提供了一些描述性的统计操作。 Spark 的数值操作是通过流式算法实现的,允许以每次一个元素的方式构建出模型。这些 统计数据都会在调用 stats() 时通过一次遍历数据计算出来,并以StatsCounter 对象返回。方法 含义count()RDD中的元素个数mean()元素的平均值sum()总和max()最大值min()最小值variance()...原创 2018-06-04 21:06:25 · 3933 阅读 · 0 评论 -
hadoop相关配置
集群配置配置:hadoop-env.shLinux系统中获取jdk的安装路径:[lzl@ hadoop101~]# echo $JAVA_HOME/opt/module/jdk1.8.0_144修改JAVA_HOME 路径:export JAVA_HOME=/opt/module/jdk1.8.0_144配置:core-site.xml<!-- 指定HDFS中NameNode的地址 --&g...原创 2018-05-31 12:12:04 · 214 阅读 · 0 评论 -
Spark通过Jar包提交任务
Standalone需要通过bin/spark-submit来提交必需参数 --class --master举例如下:/home/bigdata/hadoop/spark-2.1.1-bin-hadoop2.7/bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master spark://master01:7077 ...原创 2018-05-31 13:57:22 · 7761 阅读 · 0 评论 -
Ganglia的安装与部署
安装httpd服务与php# yum -y install httpd php安装其他依赖# yum -y install rrdtool perl-rrdtoolrrdtool-devel# yum -y install apr-devel安装ganglia# rpm -Uvh http://dl.fedoraproject.org/pub/epel/6/x86_64/epel-release-...原创 2018-05-06 09:23:33 · 4003 阅读 · 2 评论 -
Flume简介
Flume简介Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。Flume基于流式架构,容错性强,也很灵活简单。Flume、Kafka用来实时进行数据收集,Spark、Storm用来实时处理数据,impala用来实时查询。Flume角色Source用于采集数据,Source是产生数据流的地方,同时Source会将产生的数据流传输...原创 2018-05-05 10:43:09 · 141 阅读 · 0 评论 -
CentOS 通过yum获取离线安装包
由于网络不稳定,导致在某个地点可以通过yum命令下载的包在其它地方无法下载的情况,针对这种提供一个解决方式,我们可以在能够下载的地方进行yum命令,并缓存下载的安装包,这样既解决了因网络问题无法下载的情况,同时还保证了程序版本的一致性,具体方式如下:修改yum配置文件:root@ #vim /etc/yum.conf修改文件内容如下:[main]cachedir=/缓存路径 // 原始值/var...原创 2018-05-05 09:58:11 · 5341 阅读 · 0 评论 -
Hadoop框架介绍
Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决,海量数据的存储和海量数据的分析计算问题。广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈Hadoop发展历史1)Lucene--Doug Cutting开创的开源软件,用java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询原创 2018-04-08 14:43:22 · 494 阅读 · 0 评论 -
Hadoop运行环境搭建基于CentOS6
修改为静态IP# vim /etc/sysconfig/network-scripts/ifcfg-eth0需要修改的内容有5项:IPADDR=192.168.1.101(设置固定IP)GATEWAY=192.168.1.2(设置网关)ONBOOT=yes (设置自动)BOOTPROTO=static (设置静态)DNS1=192.168.1.2原创 2018-04-08 16:39:50 · 251 阅读 · 0 评论 -
Hive的DDL数据定义
创建数据库创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.dbhive (default)> create database db_hive;避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法)hive> create database db_hive;FAILED: Execution Error, retu...原创 2018-04-30 21:40:25 · 280 阅读 · 0 评论 -
Hive的DML数据操作
数据导入向表中装载数据(Load)用法:hive>load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1,…)];(1)load data:表示加载数据(2)local:表示从本地加载数据到hive表;否则从HDFS加载数...原创 2018-04-30 22:30:17 · 226 阅读 · 0 评论 -
Hive的查询
官网基本查询(Select…From) 全表和特定字段查询1)全表查询hive (default)> select * from emp;2)选择特定列查询hive (default)> select empno, ename from emp;3)注意HQL 语言大小写不敏感。 HQL 可以写在一行或者多行关键字不能被缩写也不能分行各子句一般要分行写使用缩进提高语句的可读性列别名紧跟...原创 2018-05-01 10:25:51 · 618 阅读 · 0 评论 -
Hive的函数
系统自带的函数查看系统自带的函数hive> show functions;显示自带的函数的用法hive> desc function upper;详细显示自带的函数的用法hive> desc function extended upper;自定义函数描述Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展当Hive提供的内置函数无法...原创 2018-05-01 10:40:11 · 240 阅读 · 0 评论 -
数据仓库
什么是数据仓库数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。数据仓库能干什么?1)年度销售目标的指定,需要根据以往的历史报表进行决策,不能拍脑袋。2)如何优化业务流程 例如:一...原创 2018-05-01 14:26:09 · 251 阅读 · 0 评论 -
Windows下Eclipse本地调试Hadoop环境准备
Jar包准备准备Hadoop的Jar包,这里准备的是Linux(64)环境下hadoop2.7.2的打包文件hadoop-2.7.2.tar.gz1.将其下载解压到非中文目录2.进入share文件夹,找到其中所有jar包,并将jar包拷贝到_lib文件夹(自己创建,任意起名)中3.在全部jar包中查找结尾为sources.jar的jar包,并剪切到_source文件夹中(无用,可保留)4.在全部j...原创 2018-04-24 16:27:30 · 1307 阅读 · 0 评论 -
Zookeeper概述
概述Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应,从而实现集群中类似Master/Slave管理模式。特...原创 2018-05-09 15:50:48 · 147 阅读 · 0 评论 -
Zookeeper安装
本地模式安装部署1)安装前准备:(1)安装jdk (本例使用jdk1.8)(2)下载zookeeper到linux(查找并下载zookeeper-3.4.10.tar.gz)(3)修改tar包权限(chmod u+x zookeeper-3.4.10.tar.gz)(4)解压到指定目录([lzl@hadoop1 software]$ tar -zxvf zookeeper-3.4.10.tar.g...原创 2018-05-09 16:15:43 · 162 阅读 · 0 评论 -
NTP-集群时间同步
时间同步的方式:找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时的同步,比如,每隔十分钟,同步一次时间。配置时间同步实操如下:时间服务器配置(必须root用户)(1)检查ntp是否安装 [root@hadoop001 桌面]# rpm -qa|grep ntp ntp-4.2.6p5-10.el6.centos.x86_64 fontpa...原创 2018-05-10 08:37:41 · 1453 阅读 · 2 评论 -
Kafka概述
Kafka是什么在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。1)Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。2)Kafka最初是由LinkedIn公司开发,并于 2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一个统一...原创 2018-05-17 08:49:48 · 220 阅读 · 0 评论 -
HBase部署
Zookeeper正常部署首先保证Zookeeper集群的正常部署,并启动之:$ ~/modules/zookeeper-3.4.5/bin/zkServer.sh startHadoop正常部署Hadoop集群的正常部署并启动:$ ~/modules/hadoop-2.7.2/sbin/start-dfs.sh$ ~/modules/hadoop-2.7.2/sbin/start-yarn.sh...原创 2018-05-10 16:52:32 · 295 阅读 · 0 评论 -
基于CentOS的Hive安装部署与基本操作
Hive安装参考 1.Hive官网地址:http://hive.apache.org 2.官方文档查看地址:https://cwiki.apache.org/confluence/display/Hive/GettingStarted 3.下载地址:http://archive.apache.org/dist/hive/ (本例使用的是hive-1.2.1) 4.githu...原创 2018-04-26 16:44:35 · 1690 阅读 · 0 评论 -
Hive数据类型
基本数据类型Hive数据类型Java数据类型长度例子TINYINTbyte1byte有符号整数5SMALINTshort2byte有符号整数5INTint4byte有符号整数55BIGINT long8byte有符号整数5BOOLEANboolean布尔类型,true或者falseTRUE FALSEFLOATfloat单精度浮点数3.14159DOUBLEdouble双精度浮点数3.14...原创 2018-04-27 09:23:54 · 14878 阅读 · 0 评论 -
SSH无密登录配置
无密钥配置 1.生成公钥和私钥:$ ssh-keygen -t rsa然后敲(三个回车),就会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)2.将公钥拷贝到要免密登录的目标机器上$ ssh-copy-id hostname*3.ssh文件夹下(~/.ssh)的文件功能解释 (1)known_hosts :记录ssh访问过计算机的公钥(pu...原创 2018-07-17 16:29:41 · 135 阅读 · 0 评论