
大数据
文章平均质量分 59
浪里小菜鸟
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hbase启动出问题 master.HMaster: Failed to become active master
ERROR [Thread-15] master.HMaster: ***** ABORTING master hadoop001,16000,1606899092790: Unhandled exception. Starting shutdown. *****java.net.ConnectException: Call From hadoop001/172.26.242.16 to hadoop001:8020 failed on connection exception: java.net....原创 2020-12-02 17:19:52 · 6265 阅读 · 2 评论 -
在使用ssh命令的时候出现了找不到JAVA_HOME的问题
在使用ssh命令的时候出现了找不到JAVA_HOME的问题报错Error JAVA_HOME is not set and could not be found通过ssh登陆之后会发现找不到JAVA_HOME ,我的JAVA_HOME是定义在/etc/profile 里面的。研究后发现远程登录和直接登录执行的文件是不一样的:/etc/profile: 当用户登录时,该文件被执行. /etc/bashrc: 当bash shell被打开时,该文件被执行.ssh作为远程登录的方式进入,当然就原创 2020-11-09 23:48:40 · 2760 阅读 · 0 评论 -
Scala中面向对象编程之trait
1.1将trait作为接口使用Scala中的trait是一种特殊的概念;首先先将trait作为接口使用,此时的trait就与Java中的接口 (interface)非常类似;在trait中可以定义抽象方法,就像抽象类中的抽象方法一样,只要不给出方法的方法体即可;类可以使用extends关键字继承trait,注意,这里不是 implement,而是extends ,在Scala中没有...原创 2018-11-27 12:38:12 · 290 阅读 · 0 评论 -
Scala中的下划线的应用场景
1 import导入包的所有成员,相当于java的*,而*在scala中可以作为合法的identifier。比java方便的一点是它可以导入某个类下的所有静态成员,java则需要import static。2 占位符:这个用法比较多,表示某一个参数。比如对collection或sequence调用方法map、filter、sortWith、foreach等等表示对每一个元素进行处理,甚至可以使...原创 2018-11-26 16:26:55 · 209 阅读 · 0 评论 -
SQOOP --hive-import 错误(Sqoop Hive exited with status 88)及解决
导入 mysql 表数据到 HIVE 表 这个需求得分两步来做:先在hive中,创建一个数据表,这个数据表和mysql中的数据表的结构一样。2、表创建完成后,就可以吧mysql表的数据,导入到hive表中了。 第1步:在hive中,创建表bin/sqoop create-hive-table --hive-table test.users --connect jdbc:m...原创 2018-11-23 21:12:31 · 2855 阅读 · 0 评论 -
Hive安装
2.1 Hive安装地址1.Hive官网地址http://hive.apache.org/2.文档查看地址https://cwiki.apache.org/confluence/display/Hive/GettingStarted3.下载地址http://archive.apache.org/dist/hive/4.github地址https://github.c...原创 2018-11-12 20:08:55 · 295 阅读 · 0 评论 -
HDFS block丢失过多进入安全模式(safe mode)的解决方法
Safe mode is ON. The reported blocks 3 needs additional 2 blocks to reach the threshold 0.9990 of total blocks 5. The number of live datanodes 2 has reached the minimum number 0. Safe mode will be tur...原创 2018-11-14 15:30:40 · 8725 阅读 · 3 评论 -
HAOOP完全分布式
一、 Hadoop介绍** HDFS:分布式存储文件 //用来存数据角色:NameNode和DataNode** YARN:分布式资源调度框架(Hadoop2.x以上才引用) //调用计算机资源来进行操作角色:ResourceManager和NodeManager** MapReduce:分布式数据处理框架 //用来对数据分析** 解压Hadooptar -zxf xx...原创 2018-11-13 22:15:05 · 325 阅读 · 0 评论 -
MapReduce常见错误及解决方案
常见错误及解决方案1)导包容易出错。尤其Text和CombineTextInputFormat。2)Mapper中第一个输入的参数必须是LongWritable或者NullWritable,不可以是IntWritable. 报的错误是类型转换异常。3)java.lang.Exception: java.io.IOException: Illegal partition for 139...原创 2018-11-04 21:44:05 · 4655 阅读 · 1 评论 -
大数据初学者需要看看的Hadoop问题及解决方案
1、namenode无法启动,不报错可能原因是:之前用root启动过,导致current文件夹的权限和所属更改了,需要更改回来解决:current文件夹位于hadoop安装目录同级目录的tmp/dfs/namesecondary2、WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platfo...原创 2018-11-03 21:18:46 · 417 阅读 · 0 评论 -
完全分布式配置步骤
完全分布式:1.准备三台客户机(配置IP,配置主机名...)2.安装jdk,安装hadoop3.配置JAVA_HOME和HADOOP_HOME4.使每个节点上的环境变量生效(source /etc/profile)5.准备分发脚本 xsync6.明确集群的配置7.修改配置文件 **core-site.xml **hadoop-env.sh **hdfs-sit...原创 2018-10-31 14:30:06 · 421 阅读 · 0 评论 -
大数据面试题目第二部分
简要描述如何安装配置apache的一个开源Hadoop,只描述即可,无需列出具体步骤,列出具体步骤更好。准备三台客户机(配置IP,配置主机名…)安装jdk,安装hadoop配置JAVA_HOME和HADOOP_HOME使每个节点上的环境变量生效(source /etc/profile)准备分发脚本 xsynca) **在/user/atguigu/bin下创建脚本:xsync明...原创 2018-10-28 17:11:17 · 515 阅读 · 0 评论 -
大数据面试题目第一部分
一 LinuxLinux常用命令CentOS查看版本的命令linux 查看端口调用linux命令 查看内存 磁盘 io 端口 进程使用Linux命令查询file1里面空行的所在行号有文件chengji.txt内容如下:张三 40李四 50王五 60请使用Linux命令计算第二列的和并输出在Linux环境下有文件/home/dim_city.txt如何加载dim_city外...原创 2018-10-28 17:08:19 · 480 阅读 · 0 评论 -
什么是Hadoop
hadoop中有3个核心组件:分布式文件系统:HDFS —— 实现将文件分布式存储在很多的服务器上分布式运算编程框架:MAPREDUCE —— 实现在很多机器上分布式并行运算分布式资源调度平台:YARN —— 帮用户调度大量的mapreduce程序,并合理分配运算资源3、hdfs整体运行机制hdfs:分布式文件系统hdfs有着文件系统共同的特征:1、有目录结构,顶层目录是: /2...原创 2018-10-19 12:00:10 · 168 阅读 · 0 评论 -
什么是大数据
基本概念《数据处理》在互联网技术发展到现今阶段,大量日常、工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前的传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数据的软件工具应运而生,这就是大数据!处理海量数据的核心技术:海量数据存储:分布式海量数据运算:分布式这些核心技术的实现是不需要用户从零开始造轮子的存储和运算,都已经有大量的成熟的框架...原创 2018-10-19 11:58:06 · 168 阅读 · 0 评论