
大数据
文章平均质量分 71
jsd2honey
从事IT行业, 有研发,测试,系统集成工作经验,曾取得系统架构师,信息系统项目管理师,网络规划设计师等证书,现专注于产品质量控制工作与研究。
展开
-
数字经济概念
数字经济概念,内容,具体技术,思考原创 2023-01-30 10:21:17 · 541 阅读 · 0 评论 -
Oozie介绍
Oozie介绍 1. Hadoop常见调度框架: (1)Linux Crontab: Linux自带的任务调度计划,在任务比较少的情况下,可以使用这种方式,直接执行脚本,例如添加一个执行计划: 0 12 * hive -f xxx.sql (2)Azkaban: (3)Oozie:Cloudera公司开源 (4)Zeus:阿里开源。 Oozie是管理Hadoop作业的工作转载 2017-12-13 10:11:06 · 342 阅读 · 0 评论 -
Hive安装及使用
Hive安装及使用攻略 让Hadoop跑在云端系列文章,介绍了如何整合虚拟化和Hadoop,让Hadoop集群跑在VPS虚拟主机上,通过云向用户提供存储和计算的服务。 现在硬件越来越便宜,一台非品牌服务器,2颗24核CPU,配48G内存,2T的硬盘,已经降到2万块人民币以下了。这种配置如果简单地放几个web应用,显然是奢侈的浪费。就算是用来实现单节点的hadoop,对计算资源浪费也是非常高转载 2017-12-12 16:12:02 · 1715 阅读 · 0 评论 -
Hadoop Pig简介、安装、试用
Hadoop Pig简介、安装、试用 相比Java的MapReduce api,Pig为大型数据集的处理提供了更高层次的抽象,与MapReduce相比,Pig提供了更丰富的数据结构,一般都是多值和嵌套的数据结构。Pig还提供了一套更强大的数据变换操作,包括在MapReduce中被忽视的连接Join操作。 Hadoop版本:2.2.0 Pig版本:0.1转载 2017-12-12 14:47:17 · 556 阅读 · 0 评论 -
sqoop简单import使用
sqoop简单import使用 一、sqoop作用? sqoop是一个数据交换工具,最常用的两个工具是导入导出。 导入导出的参照物是hadoop,向hadoop导数据就是导入。 二、sqoop的版本? sqoop目前有两个版本,1.4.X为sqoop1;1.99.X为sqoop2。两个版本不兼容。 三、使用sqoop列出mysql下的所有数据库 (my_pyt转载 2017-12-12 14:27:53 · 308 阅读 · 0 评论 -
高可用Hadoop平台-Flume NG实战图解篇
1.概述 今天补充一篇关于Flume的博客,前面在讲解高可用的Hadoop平台的时候遗漏了这篇,本篇博客为大家讲述以下内容: Flume NG简述单点Flume NG搭建、运行高可用Flume NG搭建Failover测试截图预览 下面开始今天的博客介绍。 2.Flume NG简述 Flume NG是一个分布式,高可用,可靠的系统,它能将不同的海量数据收集转载 2017-12-12 11:42:29 · 335 阅读 · 0 评论 -
hbase 增删改查
两篇可以参考的文章,讲的不错 http://www.cnblogs.com/nexiyi/p/hbase_shell.html (http://blog.iyunv.com/wulantian/article/details/41011297) ============================== hbase web操作 访问地址 http://hmaster转载 2017-12-12 11:20:37 · 402 阅读 · 0 评论 -
zookeeper 介绍
一、分布式协调技术 在给大家介绍ZooKeeper之前先来给大家介绍一种技术——分布式协调技术。那么什么是分布式协调技术?那么我来告诉大家,其实分布式协调技术主要用来解决分布式环境当中多个进程之间的同步控制,让他们有序的去访问某种临界资源,防止造成"脏数据"的后果。这时,有人可能会说这个简单,写一个调度算法就轻松解决了。说这句话的人,可能对分布式系统不是很了解,所以才会出现这种误解。如果这些转载 2017-12-08 15:35:26 · 189 阅读 · 0 评论 -
dfsadmin
dfsadmin是一个多任务的工具,我们可以使用它来获取HDFS的状态信息,以及在HDFS上执行的一系列管理操作。 调用方式 例如:Hadoop dfsadmin -report dfsadmin命令详解 -report:查看文件系统的基本信息和统计信息。 -safeadmin enter | leave | get | wait:安全模式命令。安全模式是NameNo转载 2017-12-08 15:06:09 · 677 阅读 · 0 评论 -
YARN介绍
1.1 YARN 基本架构 YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。 其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理。转载 2017-12-08 15:05:09 · 284 阅读 · 0 评论 -
一看就懂的数据库范式介绍(1NF,2NF,3NF,BC NF,4NF,5NF)
一、基本介绍 设计关系数据库时,遵从不同的规范要求,设计出合理的关系型数据库,这些不同的规范要求被称为不同的范式,各种范式呈递次规范,越高的范式数据库冗余越小。 目前关系数据库有六种范式:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、巴斯-科德范式(BCNF)、第四范式(4NF)和第五范式(5NF,又称完美范式)。满足最低要求的范式是第一范式(1NF)。在第一范转载 2017-08-23 21:25:57 · 403 阅读 · 0 评论 -
hadoop 练习感想
在单个节点上先建立基础操作系统,然后搭建hadoop环境平台,形成一个大粒度资源池,提供计算与存储能力。这个计算内容适合大量的且能够等效分为小任务的计算通过map-reduce模型计算得到结果。原创 2016-09-17 10:57:58 · 495 阅读 · 0 评论 -
hadoop 学习
Hadoop 本词条由“科普中国”百科科学词条编写与应用工作项目审核。 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 [1] Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错转载 2016-07-15 00:20:55 · 781 阅读 · 0 评论