
大数据
大数据相关技术
BJX-XVII
傻把式
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
深入理解MapReduce
相关概念 MapReduce是一个基于HDFS的分布式计算框架,是一个可以将分布式计算抽象为Map和Reduce的编程模型,它的核心思想是分治,将大量数据分到不同机器上去分别计算最终汇总从而进行高效的数据处理,但是MapReduce不支持迭代和循环会有一定的局限性,如果有需要迭代就会需要进行多伦的MapReduce。 一:分片: 1.1:何为分片 ...原创 2018-11-24 15:57:59 · 2045 阅读 · 0 评论 -
【深入理解Hadoop之二】HDFS上传下载数据流程
一:上传流程: 1:客户端要上传数据需要调用FileSystem的create方法创建文件, 2:首先DistributeFileSystem会通过RPC远程调namenode创建一个没有任何块依赖的空文件,在这个过程中会检查该文件是否存在,该文件父目录是否存在如果可以上传namenode会向客户端返回一个FSDateOutputStream对象,否则向客户端抛出一个异常。 3:FSD...原创 2018-11-21 22:35:22 · 940 阅读 · 0 评论 -
【深入理解Hadoop之一】 Hadoop1.0,2.0,3.0区别
1.X,2.X区别: 从HDFS角度来看: 1:Hadoop2.0新增了HDFS HA机制,HA增加了standbynamenode进行热备份,解决了1.0的单点故障问题。 2:Hadoop2.0新增了HDFS federation,解决了HDFS水平可扩展能力。 ...原创 2018-11-20 21:00:06 · 8526 阅读 · 0 评论 -
flume通过netcat收集Android用户产生数据
目标:通过flume收集安卓用户产生数据,存储到服务器文件 由于目前我这边的局限性所以我用如下的思路来实现它: 首先通过UDP 的socket将用户产生的信息发送到中间的缓存服务器(因为TCP只提供端到端传输,多个客户同时发送数据时就会出现端口占用情况,所以这里我使用UDP)。 然后缓存服务器到达一定数据量将数据通过TCP的...原创 2018-11-06 15:04:25 · 854 阅读 · 0 评论 -
kafka基本操作
#指定zookeeper主机,副本数1,分区数为1,topic名称 bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic topicname #查看消息是否创建成功 bin/kafka-topics.sh --list --zookeeper lo...原创 2018-09-26 21:28:09 · 210 阅读 · 0 评论 -
Storm编程demo
任务:将得到的字符串更改为大写,添加后缀后写入文件 1:spout类 import org.apache.storm.spout.SpoutOutputCollector; import org.apache.storm.task.TopologyContext; import org.apache.storm.topology.OutputFieldsDeclarer; import or...原创 2018-09-25 18:14:10 · 242 阅读 · 0 评论 -
storm集群安装配置:
1:首先安装zookeeper集群 2:安装storm: tar -zxvf apache-storm-1.2.2.tar.gz -C /usr/local sudo mv apache-storm-1.2.2 storm 3:更改conf目录下storm.yarml配置文件 sudo vi storm.yarml ########### These MUST be filled ...原创 2018-09-25 15:52:45 · 189 阅读 · 0 评论 -
zookeeper安装配置
1:解压安装 sudo tar -zxvf /home/hadoop/ftpDocuments/zookeeper-3.4.10.tar.gz -C /usr/local/ sudo mv zookeeper-3.4.10 zookeeper chown -R hadoop zookeeper/ 2:修改zookeeper/conf目录下配置文件zoo_sample.cfg sudo m...原创 2018-09-23 16:15:37 · 246 阅读 · 0 评论 -
【Hadoop】Hbase总结
一、shell命令进行操作 1:基本操作 start-hbase.sh #运行hbase hbase shell #进入shell命令 list #列出表名 stop-hbase.sh #关闭 2:创建表 create 'tbname','f1','f2' create 'tb',{NAME=>'f1',VERSIONS=>5} #...原创 2018-08-04 21:51:17 · 2287 阅读 · 0 评论 -
【Hadoop】Hive用户自定义函数UDF
1: hive用户自定义函数udf,实现对字符串的格式化操作 引入maven依赖: <dependency> <groupId>commons-lang</groupId> <artifactId>commons-lang</artifactId> <versi...原创 2018-08-04 15:14:51 · 1148 阅读 · 0 评论 -
Hive 使用总结HiveQL
一、基本操作 hive #进入使用HiveQL操作 show databases; #展示所有数据库 show databases like '*x*; #展示包含x字段的数据库,不同于sql模糊查询 % _ 不适用 create database dbname; #创建数据库 use dbname...原创 2018-08-03 14:12:30 · 3822 阅读 · 0 评论 -
【Hadoop】HDFS编程
1、初始化配置信息: @Test public void init() throws IOException, URISyntaxException, InterruptedException { Configuration configuration =new Configuration(); configuration.set("fs.hdfs.im...原创 2018-07-18 16:16:48 · 417 阅读 · 0 评论 -
【Hadoop】Hadoop相关错误及解决方案
1:hive运行错误 : HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient 不能实例化org.apache.hadoop.hive.ql.metadata这个包下的SessionHiveM...原创 2018-05-19 22:19:49 · 994 阅读 · 0 评论 -
【Hadoop】MapReduce编程Demo新旧
1.wordcount。 import java.io.IOException; import java.util.Iterator; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apa...原创 2018-05-05 13:26:54 · 483 阅读 · 0 评论 -
【Spark】spark安装(单机模式)
1:下载解压 sudo tar -zxvf spark-2.1.0-bin-hadoop2.7.tgz -C /usr/local/ sudo mv spark-2.1.0-bin-hadoop2.7 spark sudo chown -R hadoop:hadoop ./spark 2:修改配置文件 cp conf/spark-env.sh.template conf/spark-e...原创 2018-04-26 21:51:44 · 1326 阅读 · 0 评论 -
【Hadoop】Hadoop安装伪分布配置
1创建Hadoop用户 su useradd -m hadoop -s /bin/bash 添加Hadoop用户 设置shell为bash passwd hadoop 设置密码 2添加权限 visudo 添加 hadoop ALL=(ALL) ALL 3SSH及免密登陆 rpm -qa | grep ssh # 查询所有安装组件并且只显...原创 2018-04-25 17:27:08 · 1423 阅读 · 0 评论