- 博客(56)
- 资源 (3)
- 收藏
- 关注
原创 Spark Streaming整合kafka(2)
KafkaUtils.createDstream方式(基于kafka高级Api—–偏移量由zk保存) import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.s...
2018-03-29 09:19:45
1539
原创 sqoop导入导出
导入语法:$ sqoop import (generic-args) (import-args)配置了环境变量可以直接使用sqoop否则需要找到对应目录 bin/sqoop导入mysql表数据到HDFSbin/sqoop import \ –connect jdbc:mysql://node-1:3306/userdb \ –username root \ –passwor...
2018-03-26 10:22:51
668
原创 spark中的数据倾斜的现象
spark中的数据倾斜的现象、原因、后果 (1)、数据倾斜的现象 多数task执行速度较快,少数task执行时间非常长,或者等待很长时间后提示你内存不足,执行失败。 (2)、数据倾斜的原因 数据问题 1、key本身分布不均衡(包括大量的key为空) 2、key的设置不合理 spark使用问题 1、shuffle时的并发度不够 2、计算方式有误 (3)、数据倾斜的后果 1、sp...
2018-03-26 10:22:04
991
原创 PyCharm3.0默认快捷键
PyCharm3.0默认快捷键PyCharm Default Keymap1、编辑(Editing)Ctrl + Space 基本的代码完成(类、方法、属性)Ctrl + Alt + Space 快速导入任意类Ctrl + Shift + Enter 语句完成Ctrl + P 参数信息(在方法中调用参数)Ctrl + Q 快速查看文档F1 外...
2018-03-25 19:15:09
250
原创 kafka
要点producer:生产者,push consumer:消费者,pull topic:主题,区分每一类消息 broker:kafka中存储节点 partition:分区,将topic分成多个分片,方便操作备份 安装和部署 kafka的api: 消费者,生产者官网有案例Documentation kafka分区方式: 1.手动指定分区号 2.通过动态...
2018-03-16 10:13:52
711
原创 zookeeper运用
1.1. 统一命名服务 类似于域名服务,和java的包名服务 分布式应用中,通常需要有一套完整的命名规则,既能够产生唯一的名称又便于人识别和记住,通常情况下用树形的名称结构是一个理想的选择,树形的名称结构是一个有层次的目录结构,既对人友好又不会重复。 Name Service 是 Zookeeper 内置的功能,只要调用 Zookeeper 的 API 就能实现1.2. 配置...
2018-03-16 08:34:28
403
原创 zookeeper概要
对于集群注意时间要同步概述:实质是一个分布式小文件==存储系统==(目录树结构) 功能:统一命名系统 特性:全局数据一致性(事务性全局统筹)主从:两种角色职责不同,从要受主的的管理 leader+follower两种架构:只能访问老大,重要的事情交给老大注备:解决单点故障,两种角色职责一样 ,同一时刻有且只有一个干活active,standby可靠性:一台接受全...
2018-03-16 08:29:36
242
原创 跨部门数据管理
数据源(产生): 内部数据 前端:埋点,日志 后端:数据库 业务系统数据 外部数据:爬虫,搜索引擎数据存储(数据仓库): 文件服务管理规范 增量 全量 重传序号 MD5校验文件(MD5值是否相同判断上传下
2018-03-14 21:04:07
1419
原创 Hive原理
Hive的数据存储结构: 元数据存储:通常存储在关系型数据库中比如mysql derby(hive自带的一般不用,路径不同记录不同)作用是用来将hdfs文件,目录和sql映射关系存储Hive 中所有的数据都存储在 HDFS 中,没有专门的数据存储格式在创建表时指定数据中的分隔符,Hive 就可以映射成功,解析数据。e Hive 中包含以下数据模型:db :在 hdfs 中表现为 hiv
2018-03-14 21:02:50
1209
原创 Vmware 、Linux 基础操作
虚拟 DHCP 服务器主要有两个用途: 1. 给内部网络自动分配 IP 地址; 2. 作为对所有计算机作中央管理的手段虚拟机三种联网方式:桥接 VMnet0仅主机 VMnet1NET VMnet8VMware虚拟机克隆 VMware 支持两种类型的克隆:完整克隆 链接克隆需要关闭虚拟机右键需要克隆虚拟机选择管理>克隆克隆后需要修改的地方:
2018-03-14 20:58:33
1198
原创 机器学习数学基础-微积分(1)
极限1. 函数 f 在 x 0 处的极限为 L :limx→+x0f(x)\lim_{x\rightarrow+x0}{f(x)}= L 对于任意的正数 ϵ > 0, 存在正数 δ, 使得任何满足 |x − x 0 | < δ 的 x, 都有 |f(x) − L| < ϵ2. 无穷小阶数(Definition)3. 微分:4. 链式法则
2018-03-14 20:54:05
805
原创 Hbase的过滤器分类(3)
单元测试多种过滤器使用/** * 多种过滤条件的使用方法 * @throws Exception */ @Test public void testScan() throws Exception{ HTable table = new HTable(conf, "person_info".getBytes()); S...
2018-03-14 10:59:40
631
原创 Hbase的过滤器分类(2)
分页过滤器 PageFilter public static void main(String[] args) throws Exception { Configuration conf = HBaseConfiguration.create(); conf.set("hbase.zookeeper.quorum", "spark01:2181,spa...
2018-03-14 10:58:52
575
原创 Hbase的过滤器分类(1)
比较过滤器1.1 行键过滤器RowFilter Filter filter1 = new RowFilter(CompareOp.LESS_OR_EQUAL, new BinaryComparator(Bytes.toBytes(“row-22”))); scan.setFilter(filter1); 1.2 列族过滤器FamilyFilter Filter filter1 ...
2018-03-14 10:56:37
1040
原创 Hbase 表预分区----手动分区
默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。 命令方式: create ‘t1’, ‘f1’, {NUMREGI...
2018-03-14 10:24:30
3684
原创 Hbase之建表高级应用(2)
alter 使用方法: 如 修改压缩算法 disable 'table' alter 'table',{NAME=>'info',COMPRESSION=>'snappy'} enable 'table' 但是需要执行major_compact 'table' 命令之后 才会做实际的操作。TTL默认是 2147483647 即:Integ...
2018-03-14 10:23:43
624
原创 Hbase之建表高级应用(1)
1、BLOOMFILTER 默认是NONE 是否使用布隆过虑及使用何种方式 布隆过滤可以每列族单独启用。 使用 HColumnDescriptor.setBloomFilterType(NONE | ROW | ROWCOL) 对列族单独启用布隆。 Default = ROW 对行进行布隆过滤。对 ROW,行键的哈希在每次插入行时将被添加到布隆。 对 ROWCOL,行键 + 列族 ...
2018-03-14 10:21:33
629
原创 habase之master工作机制
Master工作机制:master上线 master启动进行以下步骤: (1) 从zookeeper上获取唯一一个代表active master的锁,用来阻止其它master成为活着的master。 (2)扫描zookeeper上的server父节点,获得当前可用的region server列表。 (3)和每个region server通信,获得当前已分配的region和region...
2018-03-14 09:27:52
748
原创 hbase之Region管理
region管理: (1) region分配 任何时刻,一个region只能分配给一个region server。master记录了当前有哪些可用的region server。以及当前哪些region分配给了哪些region server,哪些region还没有分配。当需要分配的新的region,并且有一个region server上有可用空间时,master就给这个region server...
2018-03-14 09:26:45
853
原创 Hbase寻址(2)
读写过程读请求过程: (1) 客户端通过zookeeper以及root表和meta表找到目标数据所在的regionserver (2)联系regionserver查询目标数据 (3)regionserver定位到目标数据所在的region,发出查询请求 (4)region先在memstore中查找,命中则返回 (5)如果在memstore中找不到,则在storefile中扫描(可能会...
2018-03-14 09:25:34
851
原创 Hbase寻址(1)
现在假设我们要从Table2里面查询一条RowKey是RK10000的数据。那么我们应该遵循以下步骤: 1. 从.META.表里面查询哪个Region包含这条数据。 2. 获取管理这个Region的RegionServer地址。 3. 连接这个RegionServer, 查到这条数据。系统如何找到某个row key (或者某个 row key range)所在的region bigta...
2018-03-14 09:05:16
1038
原创 spark&yarn两种运行模式(2)
两种模式的原理:cluster模式: Spark Driver首先作为一个ApplicationMaster在YARN集群中启动,客户端提交给ResourceManager的每一个job都会在集群的NodeManager节点上分配一个唯一的ApplicationMaster,由该ApplicationMaster管理全生命周期的应用。具体过程:由client向ResourceMa...
2018-03-13 08:55:39
840
原创 spark&yarn两种运行模式(1)
spark在yarn上的运行模式(cluster模式和client模式)1.cluster模式官网案例计算PIspark-submit --class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode cluster \--driver-memory 1g \--executor-memory...
2018-03-13 08:52:28
2410
原创 spark on hive
spark on hive1、spark on hive介绍(1)就是通过sparksql,加载hive的配置文件,获取到hive的元数据信息(2)spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据(3)接下来就可以通过spark sql来操作hive表中的数据2、spark on hive 配置(1)将hive安装目录下conf/hive-...
2018-03-11 21:13:35
1336
原创 Hive on Spark
Hive on Spark用的是Spark执行引擎,而不是MapReduce 处理hive元数据的不再是map和reduce工程而是通过spark的rdd就可以充分利用Spark的快速执行能力来缩短HiveQL的响应时间 配置Hive on Spark 将编译后的spark下的lib下的 spark-assembly-*.jar 拷贝到hive的lib下 * 在hive-si...
2018-03-11 21:10:08
1049
原创 spark和flume整合
软件版本:spark2.02 开发环境:idea,maven maven依赖: <properties> <scala.version>2.11.8</scala.version> <hadoop.version>2.7.4</hadoop.version> <spark....
2018-03-11 20:29:23
1680
原创 spark之DataFrame、DataSet、RDD的区别
RDD(弹性分布式数据集)RDD是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合,RDD是Spark Core的底层核心,Spark则是这个抽象方法的实现DataFrame 上图直观地体现了DataFrame和RDD的区别。 左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解 Person类的内部结构。 而右侧...
2018-03-11 16:32:46
2270
1
原创 spark之RDD(2)
RDD的依赖关系窄依赖 父RDD中每一个partition最多只被子RDD的一个partition所使用总结:窄依赖我们形象的比喻为独生子女宽依赖 子RDD的多个partition会依赖于父RDD同一个partition总结:宽依赖我们形象的比喻为超生Lineage(血统)记录下RDD的元数据信息和转换行为,如果当前一个RDD的某些分区数据丢失后,可以根据血统,重新计算...
2018-03-10 20:18:42
818
1
原创 spark之RDD(1)
Rdd概述:rdd是spark中弹性分布式数据集,不可变可分区其中元素可以并行计算的集合 特性: 1. A list of partitions rdd最小划分在每个分区中一般hdfs中未指定以block数量作为分区数量 2. A function for computing each split Spark中RDD的计算是以分区为单位的,每个RDD都会实现compute函...
2018-03-10 20:17:15
962
2
原创 scala之数组
数组定长数组和变长数组 (1)定长数组定义格式: val arr=new ArrayT (2)变长数组定义格式: val arr = ArrayBufferT 注意需要导包:t import scala.collection.mutable.ArrayBuffer 在cmd黑窗口操作import scala.collection.mutable.ArrayBuffer//初始...
2018-03-08 08:53:15
786
1
原创 scala基础语法之函数和方法
scala是面向函数和对象的编程基于Java的JDK和JVM是一个类的JAVA的语言调用方法和函数 Scala 中的+ - * / %等操作符的作用与 Java 一样,位操作符 & | ^ >> <<也一样。 只是有一点特别的:这些操作符实际上是方法。例如: a + b 是如下方法调用的简写: a.+(b) a 方法 b 可以写成 a.方法(b) ...
2018-03-08 08:47:52
821
1
原创 sacla之akka
概述: akka是rpc轻量级框架 ,Scala 在 2.11.x 版本中将 Akka 加入其中,作为其默认的 Actor,而老版本使用的 Actor 已经废弃组成: master worker 两者之间使用akka中的rpc通信 通信的业务逻辑: 1. 启动master和worker 2. wo...
2018-03-07 20:59:41
772
1
原创 hadoop HA 集群搭建(3)
启动步骤: 2.5启动zookeeper集群(分别在hadoop05、hadoop06、tcast07上启动zk) bin/zkServer.sh start #查看状态:一个leader,两个follower bin/zkServer.sh status2.6手动启动journalnode(分别在在hadoop05、hadoop06、ha...
2018-02-09 13:29:41
782
1
原创 hadoop HA集群搭建(2)
修改配置文件:2.2.2修改core-site.xml<configuration><!-- 集群名称在这里指定!该值来自于hdfs-site.xml中的配置 --><property><name>fs.defaultFS</name><value>hdfs://cluster1</value>&
2018-02-09 13:26:53
762
1
原创 Hadoop HA 集群的搭建(1)
搭建准备:系统:centos6.x版本:hadoop2.7.4 jdk1.8 zookeeper-3.4.5集群部署节点角色的规划(7节点) server01 namenode zkfc server02 namenode zkfc server03 resourcemanager server04 r...
2018-02-09 13:22:42
778
1
人工智能标准化白皮书(2018最新版版)
2018-01-29
鸟哥的linux私房菜第三版全
2018-01-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人