自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 Spark笔记(二):算子,cache,checkpoint

算子算子分类Transformation算子:不触发提交作业,完成作业中间处理过程 Value数据类型的Transformation算子 输入分区与输出分区一对一型 1 map2 flatmap3 mapPartitions4 glom输入分区与输出分区多对一型 5 union6 cartesian输入分区与输出分区多对多型 7 groupBy输出分区为输入分

2018-01-24 11:34:01 810

原创 SPARK学习笔记

1. 安装SPARK,不再赘述2. shell操作% spark-shellScala> val lines = sc.textFile("/root/spark_test")--加载文件关于RDD: 弹性分布式数据集(Resilient Distributed Dataset,简称RDD) RDD是SPARK最核心的概念,他是在集群中跨等多个机器分区存储的一个只读的对象集合.在典型的Spar

2018-01-24 09:48:04 235

原创 ScalaVSJava特殊语法笔记

Scala号称跟Java很相似,但实际上,差别颇大 Scala拥有很多简化语法,使用灵活多变,从另一个角度理解,就是不适合新人

2018-01-18 13:07:08 220

原创 Hive分区分桶基本操作

重置HIVE登录mysql[root@m ~]# mysql -uroot -p1->MySQLdrop database hive;create database hive;--修改数据库编码alter database grant all on hive.* to hive@'%' identified by '1';grant all on hive.* t

2018-01-15 13:23:32 328

原创 项目-Hive操作

第一个文件mydate.sql,设置文件使用的变量值#!/bin/bash#注意:mycollection.sql放的是存放SQL代码的文件名hive -hiveconf mydate="$(date +%Y%m%d)" -f mycollection.sql第二个文件mycollection.sql,存放SQL代码create table if not exists kp

2018-01-14 17:31:45 344

原创 大数据第一阶段练习项目说明

1 MR(MapReduce)解析流量日志日志格式: ip地址 - - 当前时间(DD/M/YY:HH:MM:SS +UTC) “GET /访问地址URL 请求协议” 访问状态 流量 解析结果: ip地址\t当前时间(YYYYMMDDHHMMSS,适合中国人的格式)\t网址\t访问状态\t流量特殊说明->解析URL:URL格式:GET /URL 请求协议特殊URL格式:GE

2018-01-13 11:09:25 510

原创 Hive Partition

重置HIVE登录mysql[root@m ~]# mysql -uroot -p1->MySQLdrop database hive;create database hive;--修改数据库编码alter database grant all on hive.* to hive@'%' identified by '1';grant all on hive.* to hi

2018-01-09 16:49:02 335

原创 Hadoop伪集群配置,测试

注意:为免测试出现特殊状况,请严格按照样板参数进行配置,了解参数配置原则的可以自行修改 注意:为免测试出现特殊状况,请严格按照样板参数进行配置,了解参数配置原则的可以自行修改 注意:为免测试出现特殊状况,请严格按照样板参数进行配置,了解参数配置原则的可以自行修改环境及软件说明: windows7 64位 xshell5 vmware12 centOS7 jdk1.8.0_152.

2018-01-03 16:14:44 291

原创 大数据概述

什么是大数据 通过分布式存储技术存储海量数据,然后运用分布式运算框架并分析挖掘出有价值的信息.核心概念:海量数据存储–通过分布式技术,整合众多PC机的存储,从而实现一个大的存储系统.例如:海量的订单信息,天气信息,个人信息……大数据计算–通过分布式技术,整合众多PC机的CPU,实现一个大的运算系统.例如:产品推荐,气象计算,行为统计……相关概念:高可用(HA):备份及高可靠性.数据同步:保

2017-12-25 14:15:28 635

原创 Oracle SQL 事务及触发器

事务 一个事务的生命周期包含三个部分: 1. 事务开始 2. 事务执行 3. 事务结束Oracle不会显式声明事务开始,而是由Oracle自行处理commit rollback set point rollback to point事务的属性和隔离级别read only 只读 read write 读写 serializable 隔离级别 隔离级别的事务是

2017-12-18 10:52:54 529

原创 学习历程->Oracle流程控制及存储过程

流程控制条件语句 if else-- 声明一个变量ideclare i number;-- begin 开始存储过程beginselect count(*) into i from DVD_USER;if i>0 and i5 thendbms_output.put_line('0);ELSIF i>=5 THEN dbms_output.put_line

2017-12-07 13:44:45 388

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除