- 博客(103)
- 资源 (5)
- 收藏
- 关注
原创 大数据的成长历程
大数据是用scala语言,和java有些不同又比java强大,省去了很多繁琐的东西,scala中的的接口用trait来定义,不同于java的接口,trait中可以有抽象方法也可以有不抽象方法。scala中的方法中还可以定义方法,这在java中是从来没有的。大数据未来几年发展的重点方向,大数据战略已经在十八届五中全会上作为重点战略方向,中国在大数据方面才刚刚起步,但是在美国已经产生了上千亿的
2015-11-10 10:08:05
731
原创 Cloudera-Manager修改集群的IP
1、业务需求说明:由于公司网络进行了整改,随之而来的就是对应的ip网段发生了变化,其中我的hadoop的集群各主机的ip也相应的发生了改变,因此需要对各主机进行修改ip。2、具体操作: 首先停止cdh各组件的服务,修改各主机的ip。修改完后,本以为完事儿了,启动Cloudera Management Service时,发现启动失败,无法启动。那么问题就来了,如何通过cloudera-
2015-08-31 18:36:10
1457
原创 Oracle高效sql语句整理
业务需求说明:由于之前公司后台APP端有一个document表,该表中包含了所有的信息,新的需求就是通过该表创建出一个新的用户表(usertable)和一个档案表(document,该表只保留原document的部分字段)。ps:原document表的数据有25万条的数据,因此在处理的时候,需要考虑到性能的问题。首先当然是对两个表进行字段的设计,然后是再将原document表中的数
2015-08-25 10:36:11
529
原创 [置顶]快速排序的递归方式和非递归方式
我们知道快递排序大部分的版本都是递归的方式来实现的:通过Pritation来实现划分,并递归实现前后的划分。由于同学上次百度二面面试官问起快速排序的非递归的实现方式,当时同学不会,因为我们大部分看到的都是递归方式来实现快速排序。并没有关注非递归的方式。但是仔细想想也是可以做的,因为递归的本质是栈,因此我们非递归实现的过程中,借助栈来保存中间变量就可以实现非递归了。在这里中间变量也就是通过Prita
2015-08-24 11:30:13
433
原创 Win7下通过eclipse远程连接CDH集群来执行相应的程序以及错误说明
最近尝试这用用eclipse连接CDH的集群,由于之前尝试过很多次都没连上,有一次发现Cloudera Manager是将连接的端口修改了,所以才导致连接不上CDH的集群,之前Apache hadoop采用的端口是9000和9001,而Cloudera Manager采用的端口是8020端口,于是通过eclipse中的MapReduce选项卡,edit一个选项连接,发现连上了。这给我带来了一些意外
2015-08-24 11:30:08
581
原创 获取hadoop的源码和通过eclipse关联hadoop的源码
一、获取hadoop的源码 首先通过官网下载hadoop-2.5.2-src.tar.gz的软件包,下载好之后解压发现出现了一些错误,无法解压缩, 因此有部分源码我们无法解压 ,因此在这里我讲述一下如何通过maven来获取完整的源码: 需要说明的是,在使用maven的时候,需要先安装jdk,protoc ,如果没有安装可以参考http://www.cnblogs.com/ljy2013/
2015-08-24 11:30:05
371
原创 Java中的Scanner类和String类
1:Scanner的使用(了解) (1)在JDK5以后出现的用于键盘录入数据的类。 (2)构造方法: A:讲解了System.in这个东西。 它其实是标准的输入流,对应于键盘录入 B:构造方法 InputStream is = System.in; Scanner(InputStrea
2015-08-21 08:48:55
492
原创 java的eclipse操作和常用类Object的使用
1、eclipse的快捷键:(1)alt + / 内容辅助。 如:main+alt + / 会出现完整的main方法。 syso+alt+ / 会输出。 如编写某个方法时,只需写入方法名 + alt+/ 就会自动生成相应的方法。(2)ctrl+shift+f 代码格式化(3)ctrl+shift+o 导入包(4)注释 ctrl+/ 单行
2015-08-21 08:48:51
609
原创 如何利用Cloudera Manager来手动安装parcel包
1、问题的描述: 当你利用Cloudera Manager部署了CDH的集群后,也许随着你的业务需求,你需要对你的就去哪做一些优化,或者扩展之类的,这个时候你可能需要下载安装一些组件。例如,我最近在阅读Cloudera 官方文档的是,看到有一节的内容说到Performance Management的时候,发现为了提升集群的性能,经常会将数据进行压缩,此时就会需要添加一些parcel的安装。
2015-08-21 08:48:46
2546
原创 java.io.IOException: Too many open files
1、描述: 每日一样,例行打开hadoop集群的cloudera manager的管理界面。发现出现了多个bad health的服务。那么出现的这个问题就是查看该服务运行的日志,对应的该服务当中,会包含相应的角色,其中,查看日志的时候可以看每一个角色的运行日志。通过查看日志,发现HBase出现了java.io.IOException: Too many open files 错误的问题。
2015-08-21 08:48:42
643
原创 java中的包以及内部类的介绍
1:形式参数和返回值的问题(理解) (1)形式参数: 类名:需要该类的对象 抽象类名:需要该类的子类对象 接口名:需要该接口的实现类对象 (2)返回值类型: 类名:返回的是该类的对象 抽象类名:返回的是该类的子类对象 接口名:返回的是该接口的实现类的对象 (3)链式编程 对象.方法1
2015-08-21 08:48:39
382
原创 HDFS中的checkpoint( 检查点 )的问题
1、问题的描述由于某种原因,需要在原来已经部署了Cloudera CDH集群上重新部署,重新部署之后,启动集群,由于Cloudera Manager 会默认设置dfs.namenode.checkpoint.period和dfs.namenode.checkpoint.txns分别是1个小时和1000000。只要达到这两个条件之一,secondarynamenode会执行checkpoint操
2015-08-21 08:48:36
6868
1
原创 HDFS中Java的API使用测试
import java.io.IOException;import java.util.Arrays;import java.util.Date;import java.util.Scanner;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.BlockLocation;im
2015-08-21 08:48:34
471
原创 利用ClouderaManager启动HBase时,出现 master.TableNamespaceManager: Namespace table not found. Creating...
1、错误描述: 出现上述这个错误的原因是我之前已经安装了Cloudera Manager中的CDH,其中添加了所有的服务,当然也包含HBase。然后重新安装的时候,就会出现如下错误: Failed to become active master,org.apache.hadoop.hbase.TableExistsException:hbase:namespace.根据上面错误的我
2015-08-21 08:48:31
912
原创 MapReducer程序调试技巧
写过程序分布式代码的人都知道,分布式的程序是比较难以调试的,但是也不是不可以调试,对于Hadoop分布式集群来说,在其上面运行的是mapreduce程序,因此,有时候写好了mapreduce程序之后,执行结果发现跟自己想要的结果不一样,但是有没有报错,此时就很难发现问题,查找问题的方法之一就是对程序进行调试,跟踪代码的执行,找出问题的所在。那么对于Hadoop的Mapreduce是如何进行调试的呢
2015-08-21 08:48:26
455
原创 Java中多态、抽象类和接口
1:final关键字(掌握) (1)是最终的意思,可以修饰类,方法,变量。 (2)特点: A:它修饰的类,不能被继承。 B:它修饰的方法,不能被重写。 C:它修饰的变量,是一个常量。 (3)面试相关: A:局部变量 a:基本类型 值不能发生改变 b:引用类型 地址值不能发生改变,但是对象的内容是可以改变的 B:初始化时机 a:只能初始化一次。 b:常见的给值 定义的
2015-08-21 08:48:23
332
原创 Java中文档制作与继承
1:如何制作帮助文档(了解) (1)写一个类 (2)加入文档注释 (3)通过javadoc工具生成即可 javadoc -d 目录 -author -version ArrayTool.java2:通过JDK提供的API学习了Math类(掌握) (1)API(Application Programming Interface) 应用程序编程接口(帮助文档) (2)如何使用呢? 请参照
2015-08-21 08:48:21
327
原创 Java中面向对象的详解
1:成员变量和局部变量的区别(理解) (1)在类中的位置不同 成员变量:类中方法外 局部变量:方法定义中或者方法声明上 (2)在内存中的位置不同 成员变量:在堆中 局部变量:在栈中 (3)生命周期不同 成员变量:随着对象的创建而存在,随着对象的消失而消失 局部变量:随着方法的调用而存在,随着方法的调用完毕而消失 (4)初始化值不同 成员变量:有默认值 局部变量:没有默认值,必须定义
2015-08-21 08:48:18
348
原创 Java中二维数组与面向对象
1:二维数组(理解) (1)元素是一维数组的数组。 (2)格式: A:数据类型[][] 数组名 = new 数据类型[m][n]; B:数据类型[][] 数组名 = new 数据类型[m][]; C:数据类型[][] 数组名 = new 数据类型[][]{{...},{...},{...}}; D:数据类型[][] 数组名 = {{...},{...},{...}}; (3)案例(掌握):
2015-08-21 08:48:16
410
原创 Java中方法与数组
1:方法(掌握) (1)方法:就是完成特定功能的代码块。 注意:在很多语言里面有函数的定义,而在Java中,函数被称为方法。 (2)格式: 修饰符 返回值类型 方法名(参数类型 参数名1,参数类型 参数名2...) { 方法体语句; return 返回值; } 修饰符:目前就用
2015-08-21 08:48:13
283
原创 Java选择结构、循环结构
1:switch语句(掌握) (1)格式: switch(表达式) { case 值1: 语句体1; break; case 值2: 语句体2; break;
2015-08-21 08:48:11
481
原创 Java运算符及顺序、选择结构
1:运算符(掌握) (1)算术运算符 A:+,-,*,/,%,++,-- B:+的用法 a:加法 b:正号 c:字符串连接符 C:/和%的区别 数据做除法操作的时候,/取得是商,%取得是余数 D:++和--的用法
2015-08-21 08:48:08
507
原创 Java基础语法
1:关键字(掌握) (1)被Java语言赋予特定含义的单词 (2)特点: 全部小写。 (3)注意事项: A:goto和const作为保留字存在。 B:类似于Notepad++这样的高级记事本会对关键字有特殊颜色标记2:标识符(掌握) (1)就是给类,接口,方法,变量等起名字的字符序列 (2)组成规则: A:英文大小写字母
2015-08-21 08:48:06
196
原创 CDH上执行WordCount的意外和收获
前面将Cloudera Manager安装到集群上的一台主机后,并通过Cloudera manager安装了hadoop-2.6.0-CDH5.4.4。今日来测试安装的集群是否很够很好的执行mapreduce任务。测试的方法就是测试WordCount的例子。1、在讲测试用例之前,我们首先为系统当前用户在HDFS中创建一下工作目录,并服务相应的权限。1.1、由于我安装的时候是用的root用户
2015-08-21 08:48:04
636
原创 windows下将磁盘脱机,并在"我的电脑"下显示
方案一: .右键单击"我的电脑"。 2.打开:管理-磁盘管理。 3.在右边出现的磁盘分区里,你想隐藏的分区上右键单击“更改驱动器名和路径”。 4.出现一个对话框,点击“删除”。 5.出现一个确定对话框,点击“是”。就ok。 如果你要找回隐藏的分区就在4的对话框点添加就行了 方案二: 运行gpedit.msc打开组策略编辑器 并依次展开至用户配置--管理模板--windows组件--windows资
2015-08-21 08:48:01
752
原创 linux中/etc/fstab文件删除或修改了,导致系统无法启动
在linux中,/etc/fstab文件是磁盘挂载的问题,若该文件不小心给修改了,或者被删除了,那么就会导致系统无法重启。因为/etc/fstab文件是记录磁盘挂载的信息,若该文件出现了问题,那么对应的主目录(/)和(/boot)以及swap的磁盘将无法挂载,所以这个文件对于linux系统来说是相当重要的。 我犯的错误是:我在对hadoop集群进行文件配置的时候,在一台主机上对/etc/fs
2015-08-21 08:47:57
3302
原创 Coudera-Manager/CDH的安装和部署
由于之前部署的集群采用的是用apache hadoop的方式来实现,但是考虑到运维的成本问题,下面将apache hadoop转换成cloudera cdh。下面主要讲解一下cloudera cdh的安装过程:Cloudera公司官方网站上介绍了三种安装方式:(官网:http://hpdm.siat.ac.cn/static/help/topics/installation_installat
2015-08-21 08:47:54
299
原创 Linux访问Windows磁盘实现共享
业务需求说明:公司在部署hadoop集群和DB server与SAN存储,公司的想法是前端通过DB Server能够将非结构化的数据能放进SAN存储当中,而hadoop集群也能够访问这个SAN存储。因此需要在SAN磁盘阵列中开辟一个共享区域,这个区域技能让DB server能够访问,也能够让hadoop集群访问。于是我们采用的方案是:1、首先,通过DB server将SAN存储中开辟一个10T
2015-08-21 08:47:52
1405
原创 Coudera-Manager/CDH的安装和部署
由于之前部署的集群采用的是用apache hadoop的方式来实现,但是考虑到运维的成本问题,下面将apache hadoop转换成cloudera cdh。下面主要讲解一下cloudera cdh的安装过程:Cloudera公司官方网站上介绍了三种安装方式:(官网:http://hpdm.siat.ac.cn/static/help/topics/installation_installat
2015-08-21 08:47:50
443
原创 Linux访问Windows磁盘实现共享
业务需求说明:公司在部署hadoop集群和DB server与SAN存储,公司的想法是前端通过DB Server能够将非结构化的数据能放进SAN存储当中,而hadoop集群也能够访问这个SAN存储。因此需要在SAN磁盘阵列中开辟一个共享区域,这个区域技能让DB server能够访问,也能够让hadoop集群访问。于是我们采用的方案是:1、首先,通过DB server将SAN存储中开辟一个10T
2015-08-21 08:47:48
562
原创 linux下文件系统类型的学习
1、 以超级用户权限登陆Linux,进入 /lib/modules/2.6.32--504.el6.x86_64/kernel/fs目录执行 ls 命令(不同Linux发行版本的Fs目录有些不同你可以用查找FS文件夹的方法找到它)。如下图所示:这里我们对最常用的几个文件系统的发展情况和优缺点作详细介绍:ext、ext2、ext3、jsf、 、xfs、ReiserFS2、ext是第一个
2015-08-21 08:47:45
500
原创 linux下文件系统的介绍
一、linux文件系统的目录结构 目录 描述 /根目录/bin做为基础系统所需要的最基础的命令就是放在这里。比如 ls、cp、mkdir等命令;功能和/usr/bin类似,这个目录中的文件都是可执行的,普通用户都可以使用的命令。/bootLinux的内核及引导系统程序
2015-08-21 08:47:43
280
原创 linux下磁盘进行分区、文件系统创建、挂载和卸载
任务的原因:由于,刚购买来的服务器需要将磁盘挂载到操作系统上,为了挂载磁盘首先要对磁盘进行分区,然后进行文件系统的创建,最后将磁盘挂载到操作系统上的某个目录。MBR(Master Boot Record)是传统的分区机制,应用于绝大多数使用BIOS的PC设备。1.MBR支持32bit和64bit系统2.MBR支持分区数量有限3.MBR只支持不超过2T的硬盘,超过2T的硬盘只能使用2
2015-08-21 08:47:40
1037
原创 NTP服务器的配置
安装cloudera Manager的时候,必须要求集群的主机之间时间同步,搭建一个NTP服务器的思路是,首先通过一台主机master与外网进行时间同步,然后其他的slaver主机与主机master进行时间同步。1、所有节点配置NTP服务集群中所有主机必须保持时间同步,如果时间相差较大会引起各种问题。 具体思路如下:master节点作为ntp服务器与外界对时中心同步时间,随后对所有da
2015-08-21 08:47:37
869
原创 linux修改系统时间和linux查看时区、修改时区的方法
一、查看和修改Linux的时区1. 查看当前时区命令 : "date -R"2. 修改设置Linux服务器时区方法 A命令 : "tzselect"方法 B 仅限于RedHat Linux 和 CentOS命令 : "timeconfig"方法 C 适用于Debian命令 : "dpkg-reconfigure tzdata"3. 复制相应的时区文件,替换系统时区文件;或者创建
2015-08-21 08:47:35
373
原创 Error:No suitable device found: no device found for connection "System eth0"
环境描述: 在虚拟机VM中,centos6.6的操作系统故障说明:vi /etc/sysconfig/network-scripts/ifcfg-eth0在修改虚拟机的ip地址之后,而在使用"service network restart"重启网卡时,出现错误: Error:No suitable device found: no device found for connect
2015-08-21 08:47:33
470
原创 修改Oracle数据库的字符集为UTF-8
1、改客户端字符集:通过WINDOWS的运行菜单运行Regedit,修改注册表Start -> Run -> Rededit Under registry Editor - > HKEY_LOCAL_MACHINE -> SOFTWARE ->ORACLE->KEY_XE->RIGHT WINDOW DOUBLE CLICK NLS_LANG -> CHANGE VALUE TO "AME
2015-08-21 08:47:30
817
原创 yum源的更新问题
我们知道在linux下安装软件的方法有多种多样,其中利用yum的方式来安装较为简单,但需要等待的时间比较长。下面介绍一下如何更新yum的源的问题。首先需要保证的是linux的机器能上网。然后按照下面的步骤进行即可。进入yum配置文件目录:cd /etc/yum.repos.d/备份配置文件:mv CentOS-Base.repo CentOS-Bas
2015-08-21 08:47:28
457
原创 Spark的编译
由于Spark的运行环境的多样性,如可以运行在hadoop的yarn上,这样就必须要对Spark的源码进行编译。下面介绍一下Spark源码编译的详细步骤:1、Spark的编译方式:编译的方式可以参考官网:https://spark.apache.org/docs/latest/building-spark.html Spark的源码编译有三种方式: (1)SBT(简单构建工具)方式
2015-08-21 08:47:26
414
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人