
大数据
知否技术
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Zookeeper 安装和配置
一 ZooKeeper安装配置三台服务器:192.168.2.100 master192.168.2.101 slave1192.168.2.102 slave2vi /etc/hosts在每台服务器的host中添加:192.168.2.100 master192.168.2.101 slave1192.168.2.102 slave原创 2017-10-27 23:50:52 · 380 阅读 · 0 评论 -
Scala实现Kafka的producer
package kafkaimport java.util.Propertiesimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord}object KafkaProducer { def producerSendMsg()={ //连接kafka的配置文件 val props =原创 2017-11-29 09:07:01 · 943 阅读 · 0 评论 -
SparkStreaming读取Kafka数据
package kafkaimport org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka010.KafkaUtilsimport org.apache.spark.streaming.{Duration, StreamingContext}import org.apache.spark.streaming.原创 2017-11-29 11:07:59 · 985 阅读 · 0 评论 -
Linux 安装 Flume
安装Flume安装在hadoop的主节点上,拷贝安装文件到linux中/usr/tmp/apache-flume-1.8.0-bin.tar.gz解压:tar –zxvf aapache-flume-1.8.0-bin.tar.gz添加到环境变量vim /etc/profile编辑#flumeexport FLUME_HOME=/usr/tmp/apache-f原创 2017-11-06 16:34:43 · 572 阅读 · 0 评论 -
Linux安装Scala
Scala安装1:解压scalatar –zxvf scala-2.11.11.tgz2:配置环境变量vi /etc/profileexport SCALA_HOME=/usr/tmp/scala-2.11.11export PATH=$PATH:$SCALA_HOME/bin3:使环境变量生效#source /etc/profile4:原创 2017-11-24 08:58:02 · 330 阅读 · 0 评论 -
Spark安装和启动
Spark安装1:解压sparktar –zxvf spark-2.2.0-bin-hadoop2.7.tgz2:配置环境变量export SPARK_HOME=/usr/tmp/spark-2.2.0-bin-hadoop2.7export PATH=$PATH:$SPARK_HOME/bin3:使环境变量生效#source /etc/profile原创 2017-11-24 09:19:49 · 418 阅读 · 0 评论 -
hive内部表和外部表的区别
内部表: 1:内部表也称为MANAGED_TABLE 2:内部表默认存储在/user/hive/warehouse下面 3:往内部表加载数据:load data inpath '/student.txt' into table student会将hdfs上面的数据剪切到/user/hive/warehouse/student下面,同时删除hdfs上面的student.t原创 2017-12-04 23:16:33 · 520 阅读 · 0 评论 -
Spark RDD API 基本操作
object RddTest { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local[*]").setAppName("rdd test") val sc = new SparkContext(conf) //mapTest(sc) //val原创 2017-11-25 15:13:31 · 567 阅读 · 0 评论 -
Spark Pair RDD 基本操作
package com.guanyaqiimport org.apache.hadoop.io.{IntWritable, Text}import org.apache.hadoop.mapred.TextOutputFormatimport org.apache.spark.{SparkConf, SparkContext}object PairRddTest { val原创 2017-11-25 15:25:12 · 437 阅读 · 0 评论 -
kafka安装和启动
1.把kafka压缩包拷贝到每一个节点的相同目录下面,并且解压2.配置环境变量:KAFKA_HOME,把kafka根目录下的bin目录添加到PATH环境变量中(每一个节点)#kafkaexport KAFKA_HOME=/usr/tmp/kafka_2.11-0.10.1.1export PATH=$PATH:$KAFKA_HOME/bin3.编辑配置文件confi原创 2017-11-24 08:54:47 · 522 阅读 · 0 评论 -
Hive中order by、sort by、distribute by、cluster by的区别
--------Hive的底层是MapReduce--------order by:对全局数据的一个排序,仅仅只有一个reduce。sort by :有多个reduce,对每一个reduce内部数据进行排序,全局结果集没有排序 。distribute by :类似于MapReduce中partition的功能,对数据进行分区,结合sort by进行使用。但是必须要在s原创 2017-12-05 21:44:45 · 437 阅读 · 0 评论 -
导入数据到Hive表中的方式
1:load data (local) inpath '/...... ' overwrite into table student partition (date=2017")2:create table teacher as select * from student3:create table teacher like student; ins原创 2017-12-05 23:06:12 · 403 阅读 · 0 评论 -
Linux安装JDK
Linux安装 JDK1.1 安装 JDKJDK 官方下载地址,选择 tar.gz 版本在 Linux 中的 /usr/tmp文件夹用来存放我们安装的软件。把下载好的 JDK 上传到/usr/tmp 文件夹。进入 /usr/tmp文件夹,使用 tar -zxvf JDK 名称 命令解压 JDK。1.2 配置环境变量需要添加的环境变量如下JAVA_HOME=你原创 2017-11-01 22:26:22 · 314 阅读 · 0 评论 -
Linux安装Tomcat
安装 Tomcat 首先关闭Linux防火墙,让我们的 windows 能够访问 Linux。Tomcat 官网选择 tar.gz 版本把下载好的 Tomcat 上传到 /usr/tmp文件夹中并解压。进入 Tomcat 解压后的 bin 目录。执行 ./catalina.sh run 启动服务器。耐心等待直到出现:Server startup in 13532 ms,个别人的等待时间可能原创 2017-11-01 22:06:57 · 231 阅读 · 0 评论 -
CentOs6.5安装Hive2.3.0
安装apache-hive-2.3.0 1:安装hive用Xftp 把apache-hive-2.3.0-bin.tar.gz放到主节点/usr/tmp下面 解压:tar –zxvf apache-hive-2.3.0-bin.tar.gz添加到环境变量vi /etc/profile编辑#hiveexport HIVE_HOME=/usr/tmp/apach原创 2017-10-21 10:34:53 · 800 阅读 · 0 评论 -
CentOs6.5 安装Mysql5.6
1:首先检查mysql是否已安装:rpm -qa | grep -i mysql2:删除已安装的mysqlyum -y remove mysql-libs*3: 从mysql的官网下载mysql57-community-release-el6-5.noarch.rpmwget http://repo.mysql.com/mysql-community-rele原创 2017-10-20 22:47:52 · 370 阅读 · 0 评论 -
Flume 将数据导入Hive
Flume 将数据导入Hbase1:创建.conf文件 #cd /usr/tmp #mkdir flumesrc #vim netcat_to_hive_user.confa1.sources=r1a1.sinks=s1a1.channels=c1a1.sources.r1.type=netcata1.sources.r1.原创 2017-11-07 19:35:43 · 4567 阅读 · 0 评论 -
Flume将数据导入Hbase
Flume 将数据导入Hbase1:创建.conf文件#cd /usr/tmp#mkdir flumesrc#vim netcat_to_hbase_user.confa1.sources=r1a1.sinks=s1a1.channels=c1a1.sources.r1.type=netcata1.sources.r1.bind=mastera1原创 2017-11-07 21:37:38 · 1017 阅读 · 0 评论 -
Sqoop1.99.7安装
Sqoop1.99.7安装1:进入sqoop官网下载sqoop-1.99.7-bin-hadoop200.tar.gz,然后放到/usr/tmp 文件夹下#cd /usr/tmp#tar -zxvf sqoop-1.99.7-bin-hadoop200.tar.gz2:修改sqoop配置文件,后面添加hadoop的目录# cd /usr/tmp/sqoop-1.9原创 2017-11-08 10:16:30 · 543 阅读 · 0 评论 -
Linux安装JDK和配置环境变量
1.1Linux安装 JDKJDK 官方下载地址,选择 tar.gz 版本在 Linux 中的 /usr/tmp文件夹下存放我们安装的软件。把下载好的 JDK 上传到 SoftWare 文件夹。进入 /usr/tmp文件夹,使用 tar -zxvf JDK命令解压 JDK安装包。1.2 配置环境变量需要添加的环境变量如下JAVA_HOME=你的JDK所在的安装原创 2017-10-23 19:56:20 · 454 阅读 · 0 评论 -
Kafka学习笔记
1:kafka是一个分布式的消息缓存系统2:kafka集群中的服务器都叫做broker3:kafka有两类客户端,一类叫producer(消息生产者),一类叫做consumer(消息消费者),客户端和broker服务器之间采用tcp协议连接4:kafka中不同业务系统的消息可以通过topic进行区分,而且每一个消息topic都会被分区,以分担消息读写的负载5:每一个分区都可以有原创 2017-11-09 22:43:45 · 353 阅读 · 0 评论 -
CentOs6.5安装Mysql-5.5.49
1:首先检查mysql是否已安装:rpm -qa | grep -i mysql2:删除已安装的mysqlyum -y remove mysql-*3:查找之前老版本mysql的目录、并且删除老版本mysql的文件和库# find / -name mysql查找结果如下:/var/lib/mysql/var/lib/mysql/mysql/usr/lib64/m原创 2017-10-21 18:34:49 · 957 阅读 · 0 评论 -
HBase安装配置
HBase安装配置1:在某一台上解压hbase的压缩文件,如在192.168.2.100tar –zxvf hbase-1.2.6 -bin.tar.gz 配置添加环境变量:#hbaseexport HBASE_HOME=/usr/tmp/hbase-1.2.6export PATH=$PATH:$HBASE_HOME/bin 使环境变量生效source原创 2017-10-28 09:37:55 · 422 阅读 · 0 评论 -
Linux命令
Liunx命令一.【常用命令】1.1 lsls 命令是 linux 下最常用的命令,ls 命令就是 list 的缩写。ls 用来打印出当前目录的清单。如果 ls 指定其他目录,那么就会显示指定目录里的文件及文件夹清单。通过 ls 命令不仅可以查看 linux 文件夹包含的文件,而且可以查看文件权限(包括目录、文件夹、文件权限)查看目录信息等等。(1)命令格式ls [原创 2017-11-01 22:12:20 · 439 阅读 · 0 评论 -
Hive中自带Funcion以及UDF编程
1:Hive自带函数>show functions; -------查看hive所有自带函数>desc function extended 函数名;------通过一个简单的例子告诉你怎样使用这个函数2:Hive UDF编程(自定义函数,然后在Hive上面能够直接使用)核心1 ):继承org.apache.hadoop.hive.ql.UDF这个类2 ):需原创 2017-12-05 23:31:10 · 404 阅读 · 0 评论