
大数据基础知识
l1212xiao
java se
展开
-
nginx+keepalived教程
nginx+keepalived教程1.课程目标1.1. 了解反向代理和负载均衡的概念1.2. 掌握Nginx的安装和使用1.3. 利用Nginx实现负载均衡2. Nginx相关概念2.1. 反向代理反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给internet上请求连接的客户端,此...转载 2018-05-05 12:36:11 · 758 阅读 · 0 评论 -
kafka 知识总结
1.kafka 知识总结1、kafka是什么类JMS消息队列,结合JMS中的两种模式,可以有多个消费者主动拉取数据,在JMS中只有点对点模式才有消费者主动拉取数据。kafka是一个生产-消费模型。Producer:生产者,只负责数据生产,生产者的代码可以集成到任务系统中。 数据的分发策略由producer决定,默认是defaultPartition Utils.abs(key.hashCode...转载 2018-06-13 15:55:25 · 372 阅读 · 0 评论 -
scala-泛型
Scala学习——泛型[T]6种使用 1 package com.dtspark.scala.basics 2 3 /** 4 * 1,scala的类和方法、函数都可以是泛型。 5 * 6 7 * 2,关于对类型边界的限定分为上边界和下边界(对类进行限制) 8 * 上边界:表达了泛型的类型必须是"某种类型"或某种类型的"子类",语法为“<:”, 9 * 下边界...转载 2018-06-21 20:12:32 · 188 阅读 · 0 评论 -
storm消息容错机制(ack-fail)
storm消息容错机制(ack-fail)1、介绍在storm中,可靠的信息处理机制是从spout开始的。一个提供了可靠的处理机制的spout需要记录他发射出去的tuple,当下游bolt处理tuple或者子tuple失败时spout能够重新发射。Storm通过调用Spout的nextTuple()发送一个tuple。为实现可靠的消息处理,首先要给每个发出的tuple带上唯一的ID,并且将ID作为...翻译 2018-06-08 10:06:16 · 1694 阅读 · 0 评论 -
Spark远程调试
Spark远程调试 本例子介绍简单介绍spark一种远程调试方法,使用的IDE是IntelliJ IDEA。 1、了解jvm一些参数属性 -Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=8888 这里对上面的几个参数进行说明:-Xdebug 启用调试特性-Xrunjdwp ...转载 2018-06-29 11:48:10 · 1100 阅读 · 0 评论 -
scala的隐式转换
摘要:通过隐式转换,程序员可以在编写Scala程序时故意漏掉一些信息,让编译器去尝试在编译期间自动推导出这些信息来,这种特性可以极大的减少代码量,忽略那些冗长,过于细节的代码。 使用方式:1.将方法或变量标记为implicit2.将方法的参数列表标记为implicit3.将类标记为implicit Scala支持两种形式的隐式转换:隐式值:用于给方法提供参数隐式视图:用于类型间转换或使针对某类型的...转载 2018-06-29 16:19:56 · 244 阅读 · 0 评论 -
Spark共享变量-Broadcast广播变量介绍及scala实现
通常情况下,当1个function传递到1个spark operation(例如:map、reduce)时,这个function是在远程的集群node上被执行的。这些变量会被复制到每一台机器,在远程机器上不会更新这些变量,然后又传送回driver program。跨tasks共享读写变量的支持,通常是低效率的。然而,spark提供了2种通用的共享变量模式:广播变量和累加器。 广播变量 广播变量...翻译 2018-06-28 11:33:23 · 3721 阅读 · 0 评论 -
Spark中的checkpoint作用与用法
Spark中的checkpoint作用与用法2017年07月27日 23:19:11checkpoint的意思就是建立检查点,类似于快照,例如在spark计算里面 计算流程DAG特别长,服务器需要将整个DAG计算完成得出结果,但是如果在这很长的计算流程中突然中间算出的数据丢失了,spark又会根据RDD的依赖关系从头到尾计算一遍,这样子就很费性能,当然我们可以将中间的计算结果通过cache或者pe...转载 2018-06-28 12:27:21 · 470 阅读 · 0 评论 -
Spark 以及 spark streaming 核心原理及实践
Spark 以及 spark streaming 核心原理及实践导语spark 已经成为广告、报表以及推荐系统等大数据计算场景中首选系统,因效率高,易用以及通用性越来越得到大家的青睐,我自己最近半年在接触spark以及spark streaming之后,对spark技术的使用有一些自己的经验积累以及心得体会,在此分享给大家。本文依次从spark生态,原理,基本概念,spark streaming原...转载 2018-07-03 16:43:10 · 643 阅读 · 0 评论 -
Spark中的checkpoint作用与用法
Spark中的checkpoint作用与用法checkpoint的意思就是建立检查点,类似于快照,例如在spark计算里面 计算流程DAG特别长,服务器需要将整个DAG计算完成得出结果,但是如果在这很长的计算流程中突然中间算出的数据丢失了,spark又会根据RDD的依赖关系从头到尾计算一遍,这样子就很费性能,当然我们可以将中间的计算结果通过cache或者persist放到内存或者磁盘中,但是这样也...转载 2018-07-04 09:51:21 · 385 阅读 · 0 评论 -
Hive 数据倾斜解决方案(调优)
Hive 数据倾斜解决方案(调优)在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的...转载 2018-08-20 11:08:01 · 318 阅读 · 0 评论 -
flink1.8快速实践
官方文档:https://ci.apache.org/projects/flink/flink-docs-release-1.8/1.1下载与安装https://flink.apache.org/downloads.htmlhttps://mirrors.tuna.tsinghua.edu.cn/apache/flink下载完成后解压,得到目录结构如下:1.2启动flink...原创 2019-07-08 13:14:04 · 618 阅读 · 0 评论 -
sqoop原理及实战
1. sqoop数据迁移1.1 概述sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;导出数据:从Hadoop的文件系统中导出数据到关系数据库 1.2 工作机制将导入或导出命令翻译成mapreduce程序来实现在翻译出的mapreduce中主要是对input...原创 2018-05-29 18:15:48 · 3270 阅读 · 1 评论 -
Flume介绍以及实战应用
1.1 Flume介绍前言:在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示: 1.1.1 概述1.) Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。2. )Flume可以采集文件,socket数据包...原创 2018-05-24 15:41:28 · 1669 阅读 · 0 评论 -
Zookeeper教程
Zookeeper教程1. Zookeeper概念简介:Zookeeper是一个分布式协调服务;就是为用户的分布式应用程序提供协调服务A、zookeeper是为别的分布式程序服务的B、Zookeeper本身就是一个分布式程序(只要有半数以上节点存活,zk就能正常服务)C、Zookeeper所提供的服务涵盖:主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务……D、虽然说可以提...原创 2018-05-07 11:15:28 · 3843 阅读 · 0 评论 -
HADOOP集群搭建
HADOOP集群搭建1.集群简介HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起HDFS集群:负责海量数据的存储,集群中的角色主要有 NameNode / DataNodeYARN集群:负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager(那mapreduce是什么呢?它其实是一个应用程序开发包...原创 2018-05-14 20:38:30 · 148 阅读 · 0 评论 -
云计算概念详解
云计算概念云计算的三种服务模式:IaaS,PaaS和SaaS”云服务”现在已经快成了一个家喻户晓的词了。如果你不知道PaaS, IaaS 和SaaS的区别,那么也没啥,因为很多人确实不知道。“云”其实是互联网的一个隐喻,“云计算”其实就是使用互联网来接入存储或者运行在远程服务器端的应用,数据,或者服务。 任何一个使用基于互联网的方法来计算,存储和开发的公司,都可以从技术上叫做从事云的公司。然而,...原创 2018-05-14 20:40:50 · 738 阅读 · 0 评论 -
hdfs常用命令参数介绍
hdfs常用命令参数介绍-help 功能:输出这个命令参数手册-ls 功能:显示目录信息示例: hadoop fs -ls hdfs://hadoop-server01:9000/备注:这些参数中,所有的hdfs路径都可以简写-->hadoop fs -ls / 等同于上一条命令的效果-mkdir 功能:...原创 2018-05-14 20:50:49 · 452 阅读 · 0 评论 -
网站统计中的数据收集原理及实现(js埋点实现)
网站统计中的数据收集原理及实现网站统计 埋点 Web Openresty网站数据统计分析工具是网站站长和运营人员经常使用的一种工具,比较常用的有谷歌分析、百度统计和腾讯分析等等。所有这些统计分析工具的第一步都是网站访问数据的收集。目前主流的数据收集方式基本都是基于javascript的。本文将简要分析这种数据收集的原理,并一步一步实际搭建一个实际的数据收集系统。数据收集原理分析简单来说,网站统计分...转载 2018-05-25 12:22:07 · 10246 阅读 · 0 评论 -
使用mapreduce求解共同好友
1.题目要求:A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J求出哪些人两两之间有共同好友,及他俩的共同好友都是谁比如:A-B : C E2.解题思路:分成...原创 2018-05-22 09:17:54 · 368 阅读 · 0 评论 -
NameNode处于安全模式(safemode)原因以及处理
NameNode处于安全模式介绍:为什么NameNode会处于安全模式?1、NameNode发现集群中DataNode丢失达到一定比例(0.01%)时会进入安全模式,此时只允许查看数据不允许对数据进行任何操作。2、HDFS集群即使启动正常,启动只会依旧会进入安全模式一段时间,这时你不需要理会他,稍等片刻即可。3、集群升级维护时手动进入安全模式吗,命令如下hadoop dfsadmin -safem...原创 2018-05-22 11:16:06 · 11688 阅读 · 1 评论 -
Hive的客户端界面工具–SQuirrel SQL Client--详细安装以及连接Hive过程
SQuirrel SQL Client是一款支持Hive的可视化工具,是市面上少数支持Hive中比较好用的,看下如何安装使用吧,下面是非常详细的安装过程。1.下载客户端SQuirrel SQL Client的官网及下载地址为:http://squirrel-sql.sourceforge.net/下载最新版版本,下载后是如下形式的jar包 squirrel-sql-3.8.1-stand...原创 2018-05-23 22:06:50 · 15664 阅读 · 3 评论 -
漏斗模型和路径分析
在互联网数据化运营实践中,有一类数据分析应用是互联网行业所独有的,那就是漏斗模型和路径分析的应用漏斗模型通常是对用户在网页浏览中一些关键节点的转化程度所进行的描述,比如从浏览到实际购买产品都需要经历三个步骤:浏览商品、将商品加入到购物车、将购物车的东西提交到订单,直到订单完成在线支付,上面的三个步骤走下来,买家人数越来越少,这个过程就是漏斗模型,漏斗模型的主要分析目的是针对网站运营过程中的各个关键...转载 2018-05-28 18:54:51 · 2007 阅读 · 0 评论 -
工作流调度器azkaban
工作流调度器azkaban1.1 概述1.1.1为什么需要工作流调度系统1.一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等2. 各任务单元之间存在时间先后及前后依赖关系3.为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; 例如,我们可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对...原创 2018-05-29 00:58:08 · 306 阅读 · 0 评论 -
Hive详细介绍及简单应用
1. Hive基本概念1.1 Hive简介1.1.1 什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。1.1.2 为什么使用Hive1.) 直接使用hadoop所面临的问题 人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大2.)操作接口采用类SQL语法,提供快速开发的能力。 避免了去...原创 2018-05-24 12:47:26 · 144803 阅读 · 5 评论 -
Hive元数据信息表
概述作为Hive的元数据,一般存储在Mysql中,一般起名为hive,管理这些元数据需要许多表,以下介绍常使用的hive元数据信息表回到顶部一、存储Hive版本的元数据表(VERSION)VERSION – 查询版本信息该表比较简单,但很重要。VER_ID SCHEMA_VERSION VERSION_COMMENT ID主键 Hiv...原创 2019-07-19 17:09:43 · 1873 阅读 · 0 评论