- 博客(29)
- 收藏
- 关注
原创 Java 类集框架
类集框架Collection 是整个类集之中单值保存的最大父接口。 public interface Collection<E> extends Iterable <E>Collection接口里面定义的常用操作方法:public boolean add(E e) 向结合中添加元素public boolean addAll(Collection <? extends ...
2018-07-01 21:47:58
216
原创 多线程
多线程的实现class MyThread extends Thread{ private String name;//定义类中的属性 public MyThread(String name ){//定义构造方法 this.name=name; } @override public void run(){//覆写run()方法,作为线程的主操作方法 for(int x = 0;x < 20...
2018-06-30 15:45:56
213
原创 Spark的资源调优
主要就是通过调整spark应用的相关参数来达到控制spark的cpu、内存,executor的数量等方式来优化 http://spark.apache.org/docs/1.6.1/configuration.html http://spark.apache.org/docs/1.6.1/running-on-yarn.htmlspark-submit脚本的资源参数--master MASTER_...
2018-06-03 20:26:23
851
原创 Spark应用的结构
Driver + Executor Driver:运行SparkContext上下文的地方(jvm),SparkContext进行初始化的地方(jvm),进行RDD初始化的地方(jvm),Task运行资源申请和RDD job/Task调度的调度 一般我们认为main方法的位置就是driver(main方法是SparkContext的构建) 一个应用只有一个driver Executor: 具体...
2018-06-03 20:24:31
271
原创 TopN
result.sortBy(t => t._2).take(10)cmd演示: val list = List(("zhangsan",20),("lisi",9),("wangwu",33)) list.sortBy(t => t._2).takeRight(1) //表示从右边开始取几条对RDD进行操作: result.sortBy(t => t._2,ascending=f...
2018-06-03 20:21:32
1203
原创 Spark wordCount案例
1、构建一个RDD ##path指定文件所在的位置,第一个默认的路径是HDFS的路径,而且可以省略hdfs:主机名:8020/,第二个如果是linux文件的路径,那么需要写file:// + 文件的绝对路径 val textFile = sc.textFile("README.md") org.apache.hadoop.mapred.InvalidInputException: Input p...
2018-06-03 20:12:17
581
原创 myeclipse 导入maven项目pom.xml文件报错解决方法
问题:在导入项目过程加载pom.xml文件时错误信息:No marketplace entries found to handle maven-compiler-plugin:3.3:compile in Eclipse. Please see Help for more information.No marketplace entries found to handle maven-compi...
2018-05-29 18:42:35
11049
1
原创 Windows 上启动不了Nginx
问题描述:在windows上启动nginx时候,任务管理器上没有nginx.exe *32 的映像名 主句访问访问不到解决:查看错误日志 logs 2018/05/28 15:57:25 [emerg] 7364#6548: bind() to 0.0.0.0:80 failed (10013: An attempt was made to access a socket in a way...
2018-05-28 16:29:44
1020
原创 windows 上搭建Nginx 服务器 IIS7 解决方法
让我 一万个怀疑人生 iis7 。今天在做Nginx负载均衡的问题,于是自己在windows安装Nginx-1.12.2。安装过程不必多说,直接解压nginx-1.12.2.zip。打开解压的文件,双击.exe文件 黑框一闪而过 (这都是正常)接下来问题来了:任务管理器里的进程竟然没有 nginx的相关进程 。。 ,真tm是见鬼了访问Nginx:localhost:80 还以为是乱码问题,几个...
2018-05-26 18:46:14
8338
4
原创 Hbase基本命令
-》hbase的shell命令 -》启动shell:bin/hbase shell -》如果shell要删除命令,需要按住ctrl+backsapce键 -》help帮助信息 Group name: general Commands: status, table_help, version, whoami Group name: ddl Commands: alter,...
2018-03-03 19:11:10
1313
原创 hbase与RDBMS的区别
1.hbase是无模式的,没有固定的列,只定义列簇;RDBMS有模式的,描述整个表的结构2.hbase适合大表(宽表),水平可伸缩;RDBMS适合小表,难于扩展3.hbase没有事务;RDBMS支持事务管理4.hbase数据不是规范化的;RDBMS是规范化的...
2018-03-02 21:46:41
1464
原创 hbase与hadoop的区别
1.hdfs分布式文件系统,存储大量数据;hbase是数据库,存储大量数据,构建与hdfs之上2.hdfs不支持快速单条数据的查找;hbase支持大表的快速查询3.hdfs提供高延迟批处理;hbase提供单行数据低延迟随机访问4.hdfs只提供数据按序访问;hbase内部是使用hash表提供的随机访问...
2018-03-02 21:44:58
8878
1
原创 hive的优化
-》大表拆分成小表 -》包含临时表、分区表、外部表-》sql语句: -》优化sql:复杂的sql-》子查询+join -》简化,拆分成多个简单的语句 join、filter:先过滤再join-》设置map和reduce的个数 reduce数目:可以参数进行设置 -》hive: set mapreduce.job.reduces=<number> -》MR:job.setNumRe...
2018-03-02 13:00:04
174
原创 hive 自定义UDF实现时间字段格式转换
1.编写类继承UDFpackage beifengly.Hive20;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;import java.util.Locale;import org.apache.commons.lang.StringUtils;import org...
2018-03-01 15:53:20
1953
原创 sqoop 数据导入
一.准备要导入的数据:1.进入数据库 mysql -uroot -p123456(-u后面是sqoop的mysql的用户名,-p后面是密码)2.创建数据库: create database 数据库名 (sqooptest) 3.使用数据库:use sqooptest4.创建表:create table hdfs(id int primary key not nullname ...
2018-02-26 18:37:35
296
原创 Hive 自定义UDF
Hive 自定义UDF函数1.新建一个Maven工程2.定义一个类,类名看心情,自己定 src/main/java 自己的包下建3.在pom.xml中添加依赖hive的maven依赖:放在 标签中 org.apache.hadoop hadoop-client 2.7.3 org.apache.h
2018-02-02 15:55:48
249
原创 hive 的数据导入和导出
hive 的数据导入和导出【导入】1.load data [local] -->本地,将数据文件copy到hdfs对应的目录,适合大部分场景使用 load data local inpath ' /opt/datas/emp.tx' into table emp; load data local inpath '数据文件所在的目录(local_path)' into
2018-02-01 21:56:29
3403
1
原创 Hive 使用mysql 数据库乱码问题
1.错误情况 当 :hive >create table test(> sno int comment ‘编号’, >sname String comment ‘姓名’>)row format delimited fields terminated by '\t';>desc test;注释出现乱码2.解决方案:01.修改my.cnf文件 命令:vi /e
2018-01-30 21:21:43
572
原创 Hive 安装mysql 和相关配置
Hive 安装mysql 和相关配置 1、用bin/hive同时打开多个客户端会报错java.sql.SQLException: Another instance of Derby may have already booted the database /opt/modules/apache/hive-1.2.1/metastore_db.derby数据库默认只能开启一个客户
2018-01-27 11:38:14
322
原创 Hive安装和使用
Hive安装和使用一.安装:1.上传hive解压到到自己的指定目录 /opt/modules/apache tar -zxf apach-hive-1.2.1-bin.tar.gz -C /opt/modules/apache2.重新给hive命名简单 mv apache -hive -1.2.1-bin hive -1.2.1(可选)3.cd hive-
2018-01-26 16:19:26
1060
原创 Hive 体系结构
Hive 体系结构一.Hive在Hadoop生态体系中的结构二.Hive体系结构1.client : 命令行 -常用 JDBC 2.metastore元数据:存储在数据库中 默认的数据库derby
2018-01-26 15:39:49
348
原创 ETL介绍
ETL介绍1.数据来源: 用户行为数据 业务数据 数据采集(爬虫) 日志文件2.处理数据抽取:把不同的数据源数据抓取过来,存到某个地方数据清洗:过滤那些不符合要求的数据或者修正数据之后再进行抽取不完整的数据:比如数据里一些应该有的信息缺失,需要补全后再写入数据仓库错误的数
2018-01-21 15:09:18
420
原创 搭建完全分布式准备环境
hadoop搭建完全分布式准备环境一. 基本环境1. 工具:CentOS(6.5 ,版本自己选择) Hadoop(2.5.0,版本自己选择) jdk1.70—67(尽量不要用过低或者最新版本,可能会有不兼容) 虚拟机3台或者4台(下面的步骤3台虚拟机都要检查并设置)2. 配置ip和DNS点击小电
2018-01-17 16:35:32
328
原创 sudo权限配置
sudo权限配置 出现这样的情况说明没有给sudo配置权限1. 操作对象是系统命令2. 命令:#visudo管理员(root)身份执行3. 进行权限配置:命令 #vi /etc/sudoers 或者#visudo 进入文件修改进去后文件内容有点多,G 移动到最后行,从最后往上翻看,找到如下地方复制”%where ALL
2018-01-16 22:35:30
947
原创 虚拟机克隆 Vmware
虚拟机克隆 Vmware一.克隆1. 在Linux终端 int 0 关机 或者在桌面选择系统-----》关机2. 以第一台为标准 点击右键 -----》管理-----》克隆再下一步完成克隆,需要等待一段时间。二.修改配置1.修改ip 点击虚拟机小电脑---右键---》编辑连接----》选中第一台为标准的如Au
2018-01-16 17:29:49
312
原创 Linux基础命令
4.命令:cd ---》作用:移动到任何指定的目录 ----》可以跟上cd..表示移动返回到上一级的目录5.查看命令:ls #ls -l ==ll 显示详细信息 #ls -a显示所有文件包括隐藏文件(在Linux中前缀为.的就表示隐藏文件) #l
2017-12-31 17:17:55
180
原创 Linux-虚拟机ip修改及映射配置
1.hostname的用法1)hostname 查看主机名 2)hostname+主机名(主机名要有意义比如beifeng.com)hostname beifeng.com 创建临时主机名,虚拟机关闭临时主机名消失3)永久生效设置主机名的方式:vi /etc/sysconfig/network 2.网络映射 格式 地址+主机名Linux和Windows中都需要
2017-12-30 22:51:41
5189
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人