
离线计算
文章平均质量分 92
十有八九
这个作者很懒,什么都没留下…
展开
-
Linux上传jdk伪分布式
先把你要上传到虚拟机里,(最好新建一个文件夹把安装的软件放到文件夹里,这样以后出什么问题也好找)使用 rz 命令yum install lrzsz -y 例:这样选中你要上传的文件直接打开就可以了解压tar -zxvf 你要解压的文件名// 进入到jdk里[root@node1 hadoop]# cd jdk1.8.0_121/// 绝对路径[root@node1 ha...原创 2019-06-12 15:10:15 · 243 阅读 · 0 评论 -
大数据概览以及当下实用的主流开发
首先我们要知道什么是大数据大数据顾名思义:就是短时间内快速产生大量多种多样的有价值的信息 (个人理解)大家都知道双十一,双十二淘宝产生的交易数量,数据不仅多而且还很杂,有可能在某一秒就可以产生上G或者上T的数据。而怎么把这些数据快速并且有效的存储起来,并把其中有价值的提取出来?有两种可以解决数据量过大的问题1、垂直扩展:就是指改变你电脑内存的硬盘量,由于电脑硬盘装载有限制,所以配合横向扩...原创 2019-06-10 21:02:35 · 221 阅读 · 0 评论 -
hive分区
Hive 分区partition — 分成不同的文件目录进行存储必须在表定义时指定对应的partition字段------分区字段一定不能与表中字段重复a、单分区建表语句: create table day_table (id int, content string) partitioned by (dt int);上传数据: load data local inpath '/root...原创 2019-06-20 21:58:27 · 998 阅读 · 0 评论 -
理论
yarn 总体上仍是master / slave结构,其中master一般指的是resourceManagerzookeeper中leader的消息类型有ping request ack标准的数据仓库一般分为三层源数据层(ODS) 数据应用层(DA) 数据层库(DW)hive 和hadoop之间的关系hive利用HDFS存储数据,利用MapReduce查询分析数据hive定...原创 2019-06-25 07:45:54 · 164 阅读 · 0 评论 -
初入大数据SecondaryNameNode持久化
我们都经历过玩着玩着电脑,电脑突然关机或者出现问题等情况,而万一这时候你正在写什么重要的东西没有来得及保存就关机了怎么办,这就需要了SecondaryNameNode持久化在说说持久化之前,先谈谈其他的内容:瞬时状态:保存在内存的程序数据,程序退出后,数据就消失了,称为瞬时状态。持久化:将程序数据在瞬时状态和持久化状态之间转换的机制。持久状态:保存在磁盘上的程序数据,程序退出后依然存...原创 2019-06-11 21:38:40 · 257 阅读 · 0 评论 -
UDF
自定义函数:UDF: 一对一继承UDF重写evaluate (实现传入的参数,并且封装了很多的方法)UDAF:多对一UDTF:一对多1、创建udf自定义函数2、达成jar包并上传到linux集群3、将集群中的jar包上传到hive中:add jar /opt/software/jars/UDF.jar;4、创建属于我自己的函数 &nbs...原创 2019-06-23 22:00:16 · 485 阅读 · 0 评论 -
hive分桶
分桶:把上传数据,分为不同的文件将同一个目录下的数据文件,拆分成多个同一目录多个文件加快表连接的速度(join)应用场景:数据抽样(sampling)、map-join其他情况不建议分桶,小文件很恐怖!资源调度和分配————最消耗时间set hive.enforce.bucketing=true;默认:false;设置为true之后,mr运行时会根据bucket的个数自动分配r...转载 2019-06-21 19:40:25 · 411 阅读 · 0 评论 -
命令
先把项目打包成jar,然后上传到Linux里,集群上传hadoop jar wcc.jar zhengxu.work /test/input.txt /aaa/正序wcc.jar 项目jar名, 包名.方法 读取数据路径, 输出路径...原创 2019-06-29 09:44:33 · 371 阅读 · 0 评论 -
hive和mysql安装流程
1、上传tar包2、解压tar -zxvf hive-1.2.1.tar.gz3.安装mysql数据库 (运行脚本安装) source 脚本 find / -name mysql 查看mysql安装的路径  ...原创 2019-06-19 21:27:30 · 1597 阅读 · 1 评论 -
Hadoop上传伪分布式
在:JDK的上传 继续操作现在开始安装hadoop……rz 找到你的hadoop文件然后上传到Linux中解压tar -zxvf hadoop~~进入到Hadoop[root@node1 hadoop]# cd hadoop-2.6.5/查看一下Hadoop里的东西bin 系统的操作命令(文件的增删改查)sbin–系统的管理命令(集群的启动、关闭)etc/hadoop—...原创 2019-06-12 15:53:04 · 376 阅读 · 0 评论 -
搭建完全分布式集群
首先准备好4台虚拟机,然后选择一台作为NameNode其余三台作为DateNode在NameNode虚拟机上上传JDK和Hadoop配置环境变量jdk和hadoop都要配置进去[root@node1 ~]# vi/etc/profile// 让环境变量生效[root@node1 ~]# source /etc/profile// 进入到hadoop[root@nod...原创 2019-06-12 23:33:29 · 1030 阅读 · 0 评论 -
Linux安装虚拟机
安装新的虚拟机在这一步的时候选择稍后安装操作系统,然后点击下一步在这选择CentOS 64位,然后点击下一步点击自定义硬件到这选择你自己的miniOS文件然后点击完成然后虚拟机会出现蓝色背景的几行英文,然后选择第一行按回车键出现这个选择SKip按下回车然后 OK 下一步然后一直点击Next这里选择Yes这里是你的主机名,然后一直Next然后这里输入你的密...原创 2019-06-13 08:19:17 · 183 阅读 · 0 评论 -
eclipse对接伪分布式
配置jdk的环境变量再配置hadoop的环境变量在path点击编辑,然后在里面新建,然后如上图写上HADOOP_HOME(注意必须要大写)然后在系统变量新建浏览目录选择你的hadoop2.6.5然后确定(不能有汉字)然后打开eclipse,找到小象(map/reduce)如果没有的话然后伪分布式穿个文件然后就可以看到...原创 2019-06-13 20:17:40 · 232 阅读 · 0 评论 -
hadoop用eclipse的基本操作
在eclipse新建一个java的项目,然后在根目录创建一个新的文件夹把hadoop所需要的jar包导入1、把hadoop-2.6.5上传上去2、创建一个lib放置jar包的地方,然后把hadoop有关的lib里的jar包全部放入进去3、Build Path 出现这东西,右边点击Add Library… 把刚才创建的lib导入生效注如果你上传,重命名什么都不报错但是web页面不显...原创 2019-06-13 20:53:51 · 358 阅读 · 0 评论 -
zookeeper
1、在启动集群时候关闭防火墙 2、myid对应 三台节点同时启动,启动之后再有节点挂掉无所谓原创 2019-06-18 21:21:28 · 107 阅读 · 0 评论 -
Linux常用的dfs命令
启动hdfsstart-dfs.sh创建目录hdfs dfs -mkdir -p /user/root上传文件hdfs dfs -D dfs.blocksize=1048576 -put从指定路径读取文件上传到指定路径hdfs dfs -put /user/root/aa.txt /test/input删除文件hdfs dfs -rm /user/root/aa.txt ...原创 2019-06-14 21:29:10 · 2943 阅读 · 2 评论 -
Map/Reduce 入门
这是map/reduce的数据封装类,在mapreduce中原有的java类型是在数据传输中不能使用 ,需要使用其封装类初步了解MapReduce,我们要知道它的工作原理,首先,MapReduce在Hadoop中是负责计算的单元,HDFS是存储单元,那么MapReduce就是计算HDFS上的数据,提取数据的价值。MapReduce分为两个从磁盘读取Map 负责拆分数据数据现在Map...原创 2019-06-14 21:50:23 · 117 阅读 · 0 评论 -
shell命令 九九乘法表
shell 以及 控制循环数据流的应用首先要知道 0,1,2 代表着什么0 代表输入1 是标准输出2 是错误输出以及你想把比如 home 目录下的所有文件都打印出来放到一个文件里面,接下来你可以使用这么一个命令ls /hoe >abc.file (注意空格)欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你...原创 2019-06-10 07:40:21 · 3041 阅读 · 2 评论 -
flume启动报错
启动flume的时候报以下错误:这是因为你在 profile 里配置flume的时候出错!第一行写的是你flume的所在绝对路径修改完生效以下就可以了原创 2019-06-27 10:53:07 · 829 阅读 · 2 评论