大数据
zipo
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
flink checkpoint原理
理想中的state管理理想的状态管理是: 易用,flink提供了丰富的数据结构,简洁易用的接口; 高效,flink对状态的处理读写快,可以横向扩展,保存状态不影响计算性能; 可靠,flink对状态可以做持久化,而且可以保证exactly-once语义; flink中checkpoint执行流程checkpoint机制是Flink可靠性的基石,可以保证Flink集群在某个算子因为某些原因(如 异常退出)出现故障时,能够将整个应用流图的状态恢复到故障之前的某一状态,保 证应用流图状态的一致转载 2020-07-23 10:13:35 · 478 阅读 · 0 评论 -
四、HDFS中NameNode的启动过程
一、HDFS中NameNode的启动过程1、在hdfs-site.xml中设置文件存储路径并指向data路径,在hadoop安装路径中新建data目录。2、进行namenode格式化,在data目前中生成各类目录,并生成fsimage文件。3、第一次启动namenode硬盘中将fsimage加载到内存中,hdfs文件如果修改,将写edits文件作为log,并将最新修改内容加原创 2017-01-24 19:19:53 · 2430 阅读 · 0 评论 -
六、Zokeeper分布式集群部署
一、Zookeeper集群几个配置项tickTime:zookeeper服务器之间或客户端与服务器之间维持心跳的时间间隔,单位是毫秒。datadir:zookeeper存放文件的位置。inltLimit:zookeeper接受客户端初始化链接时最长能忍受多少个心跳时间间隔数。syncLimit:leader与follower之间发送消息,请求的应答时间的长度。不能超过多少个tick原创 2017-01-25 09:39:55 · 6062 阅读 · 0 评论 -
一、Hadoop 2.5.2伪分布式环境搭建
一、环境准备新建或克隆一台新的centos服务器虚拟机。修改ip和hosts,关闭防火墙iptables和selinux。新建hadoop用户,并赋予相应的sudoers权限。建立互信,免登陆。安装jdk1.7,并配置环境变量。二、开始安装上传hadoop2.5.2安装包,并解压到相应的目录下。修改hadoop环境配置文件的的环境变量hadoop-env.s原创 2017-01-24 09:53:33 · 430 阅读 · 0 评论 -
一文看懂大数据的技术生态圈,Hadoop,hive,spark都有了
大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。大数据,首先你要能存的下大数据。传统的文件系统是单机的,不能横跨不同的转载 2017-01-22 19:43:53 · 347 阅读 · 0 评论 -
五、Hadoop 2.5.2分布式环境部署
一、地址规划主机名ip配置服务Bigdata01.xxxx.com192.168.249.130内存1gCpu 1核硬盘 10gNamenodeDatanodeNodemanagerBigdata02.xxxx.com192.168.2原创 2017-01-25 09:11:23 · 338 阅读 · 0 评论 -
十八、Hive 中UDF编程
依据课程中讲解的如何自定义 UDF,进行案例编写,进行总结步骤,并完成额外需求,具体说明如下: 1) 依据课程讲解 UDF 编程案例,完成练习,总结开发 UDF 步骤,代码贴图,给予注释,重点在于清晰编程思路。 2) 完成如下数据字段中双引号,自定义 UDF,完成编程测试。新建maven项目。配置pom.xml properties> project.build原创 2017-02-23 19:58:17 · 1443 阅读 · 0 评论 -
十九、Hive日志分析案例一
按照每日,省份统计pv和uv,date province UV PV建立hive数据库及数据表 2.数据导入建hive的db_track.daily_province_visit的表导入insert into table db_track.daily_province_visit select dat原创 2017-02-23 20:35:03 · 972 阅读 · 0 评论 -
十七、Hive 表数据加载、导出、查询
1.使用 load 方式加载数据到 Hive 表中,注意分区表加载数据的特殊性CREATE TABLE IF NOT EXISTS myinfo (id string, name string, city string) PARTITIONED BY (day string)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'STO原创 2017-02-15 20:35:52 · 504 阅读 · 0 评论 -
Hbase伪分布式安装
因要安装pinpoint1.8.3所有需要安装hbase,因为是测试所有就安装一个伪分布式吧。hbase安装需要hdfs,先来安装一下hadoop吧。http://naver.github.io/pinpoint/1.8.3/main.html我们需要hbase1.2.6版本,hadoop需要2.7.3先下载wgethttp://apache.claz.org/hadoop/...原创 2019-06-08 20:21:24 · 526 阅读 · 0 评论 -
三、hadoop2.5.2+centos6.5编译源码
1、安装jdk1.7,并配置环境变量2、安装其他基础库[root@hadoop0 cdh]# yum install g++ autoconf automake libtool make cmake zlib1g-dev pkg-config libssl-dev(1). 如果是Debian或CentOs 安装# yum install g++原创 2017-01-24 18:39:57 · 712 阅读 · 0 评论 -
第零篇大数据学习介绍
## 大数据相关技术学习和使用了一段时间,最近就没有怎么用了。打算把之前学习的知识总结并记录起来分享给大家,省的都忘了,那就浪费了花费的那么时间和精力了。本系列全部采用hadoop2.5.2的版本,下面大概介绍一下打算写的内容大纲: ## 1. 如何安装和搭建虚拟机网络 2. hadoop2.5.2的伪分布式搭建 3. hadoop2.5.2+centos6.5编译源码 4. HDF原创 2016-05-06 13:31:15 · 274 阅读 · 0 评论 -
十六、Hive 表的创建及测试
一、Hive 中创建表的三种方式,应用场景说明第一种第二种第三种二、内部表和外部表的区别内部表也称之为MANAGED_TABLE;默认存储在/usr/hive/warehouse下,也可以通过location指定。删除表时,会删除表数据以及元数据。外部表也称之为EXTERNAL_原创 2017-02-12 20:09:21 · 566 阅读 · 0 评论 -
八、手把手教MapReduce 单词统计案例编程
1、在Linux 系统中搭建Eclipse 和Maven 环境,创建Maven Project2、安装jdk,并配置环境变量。3、配置maven ,配置环境变量,用root用户身份。4.配置Maven仓库5.解压eclipse6.以普通用户打开eclipse,配置maven原创 2017-02-07 19:44:59 · 744 阅读 · 0 评论 -
九、用图讲解MapReduce Shuffle 过程
Map Shuffle 主要做了哪些事?哪些可以设置及如何设置?环形内存缓冲区默认为100MB,当超过80%,则进行spill到磁盘。内存中会进行分区、排序、combine(可选)。磁盘中将多个溢写的文件进行合并,压缩(可选)。设置:1) partitioner分区 job.setPartitionerClass(cls); 2) sort排序job.setS原创 2017-02-07 20:15:54 · 2785 阅读 · 0 评论 -
十、MapReduce 分析网站基本指标
1、理解【网站基本指标】的几个概念PV即page view 浏览量,页面的浏览次数,用户每打开一个页面就记录1次,多次打开同一页面,则浏览量累计。UV 即Unique Visitor,独立访客数,1天内同一访客的多次访问只计为1个访客。VV 即Visit View,访客的访问次数,记录所有访客1天内访问了多少次您的网站。独立ip数即指1天内用不同的ip地址的用户访问网站的数量。同一原创 2017-02-09 13:34:36 · 688 阅读 · 0 评论 -
zookeeper详细介绍
一直对zookeeper的应用和原理比较迷糊,今天看一篇文章,讲得很通透,分享如下:场景一有这样一个场景:系统中有大约100w的用户,每个用户平 均有3个邮箱账号,每隔5分钟,每个邮箱账需要收取100封邮件,最多3亿份邮件需要下载到服务器中(不含附件和正文)。用20台机器划分计算的压力,从 多个不同的网路出口进行访问外网,计算的压力得到缓解,那么每台机器的计算压力也不会很大转载 2017-01-25 09:59:50 · 2640 阅读 · 0 评论 -
十一、理解MapReduce的二次排序功能,包括自定义数据类型、分区、分组、排序
二次排序不仅可以对key进行排序,同时也可以对value中的某个字段进行排序。有两种过程组合排序—>分区(可选)—>分组分区—> 排序(二次) —>分组下面以第一种方式来进行说明:Map阶段,排序,进行key和value组成组合的key,例如(k+v,v)。分别对组合key中的k和v进行分区排序。设置自定义数据类型并实现WritableComparable接口,自定义数据类型作原创 2017-02-09 15:21:14 · 835 阅读 · 0 评论 -
十二、用MapReduce完成类似倒排索引的功能
1)理解【倒排索引】功能2)熟悉 MapReduce 中的 Combiner 功能3)依据需求编码实现【倒排索引】功能,旨在对 MapReduce理解。数据:结果:代码:package com.hyhc.mr; import java.io.IOException; import org.apache.hadoop.conf.Configur原创 2017-02-09 15:43:41 · 413 阅读 · 0 评论 -
十三、根据HDFS提供的API,实现文件上传、下载、删除、重命名、移动
一、根据HDFS提供的API,实现以下功能:针对文件: 上传、下载、删除、重命名、移动package HdfsApi;import java.io.File;import java.io.FileInputStream;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import原创 2017-02-09 15:55:47 · 5557 阅读 · 0 评论 -
十四、Hive功能架构
一、Hive 能做什么,与 MapReduce 相比优势在哪里?使用Hive是基于MapReduce的,在查询统计方面比MapReduce开发起来更简单。1)Hive 是建立在Hadoop (HDFS/MR)上的用于管理和查询结果化/非结构化的数据仓库;2)一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制;3)Hive 定义了简单的类SQL 查询语言,称为HQL,它原创 2017-02-12 16:19:00 · 552 阅读 · 0 评论 -
十五、Hive 安装部署及测试
一、Hive 如何配置与 Hadoop 关联,进行创建表,加载数据测试Hive解压并修改名称,配置hive-env.sh的hadoop_home与HIVE_CONF_DIR创建表,加载数据二、在 Linux 下安装 MySQL 数据库1、解压mysql 5.6.272、查看是否已经安装mysql,如未查询到原创 2017-02-12 16:36:18 · 356 阅读 · 0 评论 -
七、Hadoop 2.5.2+zookeeper高可用部署
一、原理(四大要点)(1)保证元数据一致(edits)namenode (fsimage edits) a、NFS b、journalnode c、zk(2)只有一台namenode对外提供服务(proxy)(3)接受datanode的心跳(4)隔离二、HDFS HA启动并测试原创 2017-01-25 10:15:25 · 342 阅读 · 0 评论
分享