
Hadoop
文章平均质量分 90
Google大数据Hadoop平台。
boonya
资深Java,热衷大数据,Python爬虫,持续探索副业中,有需要的可以加我微信联系:boonya221
展开
-
推荐基于Hadoop的大数据相关环境安装
推荐基于Hadoop的大数据相关环境安装原创 2024-10-31 13:21:08 · 480 阅读 · 0 评论 -
Java大数据:使用Apache Hadoop和Spark处理大数据集
处理大型数据集是软件开发人员面临的一个常见挑战,特别是在处理和分析数据以获得有意义的见解时。Apache Hadoop和Spark是两个强大的工具,可以帮助你克服这个挑战,让使用Java处理大数据变得更容易。在本教程中,我们将讨论如何使用Apache Hadoop和Spark处理大型数据集。我们还将提供代码片段和示例,以帮助您更好地理解这些概念。如果您想雇用具有大数据处理专业知识的远程Java开发人员,请考虑联系专门的Java开发团队。翻译 2024-10-08 22:46:01 · 531 阅读 · 0 评论 -
【点燃大数据】最新Hadoop3.x及其常用组件集群安装
如果你对大数据感兴趣,这篇文章将带你进入大数据环境的准备和安装。万事开头难,请耐心读完工具和环境部分,这部分给大家介绍了本文将要使用到的工具组件,在最后会提供一个完整的安装包资源和代码资源供大家学习之用。原创 2024-09-26 14:18:32 · 1265 阅读 · 1 评论 -
Apache Hadoop3.2.2与Spark3.0.0环境安装
基础环境说明系统环境:centos8主机名:www.boonya.cnvi /etc/hosts127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 www.boonya.cn boonya.cn::1 localhost localhost.localdomain localhost6 localhost6.localdomain6JDK基础环境安装下载并解压.原创 2021-02-17 15:20:56 · 3519 阅读 · 0 评论 -
Docker 使用Dockerfile 构建Hadoop镜像与集群实例
目录获取centos7镜像安装SSH设置固定IP构建Hadoop镜像配置Hadoop集群搭建一个集群环境时需要多台服务器,对于我们个人,这通常是个门槛,需要使用虚拟机,安装操作系统,然后运行起来多个虚机安装操作系统是个不太轻松的任务,并且运行多个虚机对个人电脑性能也有一定要求,这些门槛影响了很多小伙伴的实践积极性使用Docker的话就简单了,不用安装操作系统,直接下载一个镜像,如centos,这样操作系统就有了,基于这个系统镜像运行多个容器,就相当于起了多个虚机,而且系统性能转载 2020-09-01 15:37:42 · 2329 阅读 · 0 评论 -
Docker搭建Hadoop集群
文章转自:https://blog.youkuaiyun.com/lizongti/article/details/102756472Docker搭建Hadoop集群环境准备 依赖 安装Docker 单例模式(Without Docker) 安装 安装JDK 安装Hadoop 配置 环境变量 设置免密登录 修改 hadoop-env.sh HDFS 创建目录 修改core-site.xml 修改hdfs-site.xml 格..转载 2020-09-01 10:14:59 · 539 阅读 · 0 评论 -
阿里HBase超详实践总结 | 一文读懂大数据时代的结构化存储
HBase是一个开源的非关系型分布式数据库(NoSQL),基于谷歌的BigTable建模,是一个高可靠性、高性能、高伸缩的分布式存储系统,使用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase最初是以Hadoop子项目的形式进行开发建设,直到2010年5月才正式成为Apache的顶级项目独立发展。伴随着互联网时代数据的澎湃增长,HBase作为基础存储系统得到了快速发展与应用,大批知名商业公司(Facebook、Yahoo、阿里等)不自主地加入到了HBase生态建设队伍,成为Ap转载 2017-07-10 17:44:22 · 969 阅读 · 0 评论 -
CentOs7 安装Hadoop-3.1.0集群环境
虚拟机准备 master 172.16.20.11slave1 172.16.20.12slave2 172.16.20.13安装JDKversion 1.8.0_121,注意需要配置环境变量。安装:参考https://blog.youkuaiyun.com/boonya/article/details/55506386 SSH免密登录1、修改hostname...原创 2018-06-17 16:25:57 · 4094 阅读 · 0 评论 -
官网教程:什么是Apache Hadoop?
英文原文地址:http://hadoop.apache.org/Apache™Hadoop®项目为可靠的,可扩展的分布式计算开发开源软件。Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器提供本地计算和存储。该库本身不是依靠硬件来提供高可用性,而是设计用于在应用层检测和处理故障,从而在一组计算机之上提供...翻译 2018-06-18 18:08:33 · 2550 阅读 · 0 评论 -
Hadoop集群多次格式化导致容量分配为0不能导入数据
目录遇到问题解决问题验证处理情况查看集群状态遇到问题使用hadoop fs -put 命令上传文件发现失败,报了以下错误:03/01/19 15:18:03 WARN hdfs.DFSClient: DataStreamer Exceptionorg.apache.hadoop.ipc.RemoteException(java.io.IOException): ...原创 2019-01-03 15:28:10 · 4740 阅读 · 0 评论 -
Hadoop默认提供的字数统计示例运行
开始之前先了解 hadoop fs 命令使用,然后再通过运行示例程序来观看Hadoop的简单运行效果。目录Hadoop fs命令基本目录操作创建输入目录创建输出目录删除目录操作上传作业文件执行MapReduce计算定位执行目录运行指令运行状态执行成功日志查看执行结果注意事项输出目录必须是不存在的目录执行过程中出错classpath未配...原创 2019-01-03 17:09:45 · 2283 阅读 · 2 评论 -
Hadoop早期中文学习相关应用及其各版本文档
目录Hadoop r-1.0.4 中文Hadoop集群另类视觉Hadoop其他版本文档Hadoop r-1.0.4 中文更新文档连接:http://hadoop.apache.org/docs/r1.0.4/cn/ 概述快速入门集群搭建HDFS构架设计HDFS使用指南HDFS权限指南HDFS配额管理指南命令手册FS Shell使用指南Di...转载 2019-01-03 21:00:06 · 437 阅读 · 0 评论 -
Hadoop发展历程及重要核心模块解读
本文内容及截图来自网络课堂。目录Hadoop 四大模块演变Hadoop HDFSHadoop MapReduceHadoop YARNHadoop 四大模块演变说明:版本特点: Hadoop HDFSHDFS:Hadoop Distributed File System——分布式文件系统文件系统: 文件+存储block块。a.单机文件系统...转载 2019-01-04 00:08:36 · 2301 阅读 · 0 评论 -
Hadoop相关项目Hive-Pig-Spark-Storm-HBase-Sqoop
学习Hadoop相关项目Hive-Pig-Spark-Storm-HBase-Sqoop目录HivePigSparkStormHBaseSqoopHivePig和Hive的对比摘要: Pig Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(如日志文件)。同时...转载 2019-01-13 16:53:55 · 945 阅读 · 0 评论 -
Ubuntu Server安装Apache Hadoop
实践出真知“千里之行,始于足下。”学习任何东西都是这样。本文所需环境:Linx(Ubuntu server15.04),Hadoop(hadoop-2.7.2),OS(windows amd 64)原创 2017-02-15 13:51:53 · 2056 阅读 · 1 评论 -
Apache HBase
原文地址:http://hbase.apache.org/欢迎使用Apache HBase™Apache HBase™是Hadoop数据库,一个分布式,可扩展,大数据存储。当您需要随机,实时的读/写访问您的大数据时,使用Apache HBase™。这个项目的目标是托管非常大的表 - 数十亿行X百万列 - 在商品硬件群集的顶部。 Apache HBase是一个开源的,分布式的翻译 2017-02-14 17:57:13 · 707 阅读 · 0 评论 -
Java和Maven的Cloud Bigtable HBase 客户端配置
原文地址:https://cloud.google.com/bigtable/docs/using-maven本文采用Google翻译。Cloud Bigtable用于Java的HBase客户端在Maven存储库中可用,使得在Apache Maven项目中轻松使用Cloud BigTable。Maven工件概述Cloud Bigtable Java的Ja翻译 2017-02-14 18:08:37 · 1168 阅读 · 0 评论 -
Apache Hadoop入门
Refcard提供了Apache Hadoop,它是一个软件框架,它使用简单的高级编程模型实现大型数据集的分布式存储和处理。我们涵盖了Hadoop的最重要的概念,描述其架构,指导如何开始使用它,以及在Hadoop上编写和执行各种应用程序。翻译 2017-01-18 16:53:09 · 946 阅读 · 0 评论 -
Hadoop Mapreduce组合器(Combiner)示例
这个例子解释了关于Apache Hadoop的Map-Reduce和Combiner范例如何在MapReduce中逐步编写字计数示例。 接下来,我们看到了如何在eclipse中执行示例以用于测试目的,以及如何在Hadoop集群中使用HDFS为输入文件执行。 本文还提供了有关在Ubuntu上设置Hadoop,设置Hadoop集群,了解HDFS和基本FS命令的其他有用文章的链接。 我们希望,本文的目的是解释Hadoop MapReduce的基础知识,为您提供了解Apache Hadoop和MapReduce的坚翻译 2017-02-09 23:42:27 · 3503 阅读 · 0 评论 -
Apache Hadoop集群设置示例(带虚拟机)
Apache Hadoop是为多机器集群设置而设计的。虽然可能在单机上运行也用于测试目的,但实际实现是针对多机群集。 即使我们想要尝试多机器设置,我们将需要通过网络彼此连接的多个系统,这是不可能的;如果你没有多个系统来尝试Hadoop集群呢?翻译 2017-01-19 13:52:58 · 1186 阅读 · 0 评论 -
什么是Hadoop最大的挑战?
许多公司在其IT基础架构中采用Hadoop。 对于具有强大工程团队的旧大数据分发器,设计目标系统,选择技术堆栈并开始实施通常不是一个大问题。那些有很多经验的人有时候可能面临着所有复杂性的障碍,但是Hadoop初学者面临着无数挑战。 以下是Grid Dynamics为其客户解决的最常见的Hadoop挑战。翻译 2017-01-19 13:06:06 · 936 阅读 · 0 评论 -
怎样在Ubuntu上安装Apache Hadoop
在这个例子中,我们将看到如何在Ubuntu系统上安装Apache Hadoop的细节。我们将完成所有必需的步骤,从Apache Hadoop所需的先决条件开始,然后是如何配置Hadoop,我们将通过学习如何将数据插入Hadoop以及如何对该数据运行示例作业来完成此示例。翻译 2017-01-18 23:33:01 · 959 阅读 · 0 评论 -
学习Hadoop的前提条件
Apache Hadoop是入门点,或者我们可以说是进入整个大数据生态系统的基础。它是大数据生态系统中大多数高级工具,应用程序和框架的基础,但是在学习Apache Hadoop时,还需要事先知道一些事情。开始学习Apache Hadoop没有严格的先决条件。 但是,它使事情更容易,如果你想成为和Apache Hadoop的专家,这些是很好的知道的东西。翻译 2017-01-19 12:31:34 · 4281 阅读 · 0 评论 -
Hadoop “Hello World” 示例
Hadoop是一个Apache软件基金会项目。 它是源自Google MapReduce和Google文件系统的开源版本。它设计用于跨越通常在商品标准硬件上运行的系统集群的大数据集的分布式处理。Hadoop被设计为假设所有硬件迟早失效,并且系统应该是鲁棒的并且能够自动处理硬件故障。Apache Hadoop由两个核心组件组成,它们是:(分布式文件系统简称Hadoop分布式文件系统或HDFS) & (MapReduce作业的框架和API)。翻译 2017-01-20 11:26:46 · 9379 阅读 · 0 评论 -
Hadoop Mapper 示例
在这个例子中,我们将讨论和理解Hadoop Mappers,这是Hadoop MapReduce框架的前半部分。 映射器是任何MapReduce应用程序的最明显的部分,并且需要对Mappers的良好理解才能充分利用MapReduce功能。翻译 2017-01-20 14:32:31 · 2262 阅读 · 0 评论 -
Apache Hadoop DistCP(分布式拷贝)示例
在这个例子中,我们将向您展示如何使用分布式复制工具在Hadoop的集群/集群内设置中复制大型文件。DistCP是Apache Hadoop上下文中的Distributed Copy(分布式拷贝)的缩写。 它基本上是一个工具,可以使用在我们需要复制大量的数据/文件在集群内/集群设置。 在后台,DisctCP使用MapReduce分发和复制数据,这意味着操作分布在集群中的多个可用节点上。 这使得它更有效和有效的复制工具。翻译 2017-02-10 22:47:53 · 4208 阅读 · 1 评论 -
Apache Hadoop Zookeeper示例
Apache Zookeeper是分布式系统的构建块。当设计分布式系统时,总是需要开发和部署可以通过集群协调的东西。它是一个由Apache维护的开源项目,用于维护和协调分布式集群。 在这个例子中,我们将探讨Apache Zookeeper,从简介开始,然后是设置Zookeeper并使其运行的步骤。翻译 2017-02-10 23:36:54 · 898 阅读 · 0 评论 -
Linux Ubuntu server 15.04 amd-64编译Apache Hadoop 2.7.2源码
为解决Unable to load native-hadoop library for your platform 异常需要修改/etc/profile文件下的Hadoop配置:export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib" 注:主要问题是对应的lib下没有64位编译的包。原创 2017-02-20 11:51:39 · 1333 阅读 · 0 评论 -
Apache Hadoop FS命令示例
Hadoop文件系统(FS)默认提供了各种shell命令,可用于与Hadoop分布式文件系统(HDFS)或任何其他使用Hadoop Shell的支持文件系统进行交互。 一些最常用的命令是曾经用于诸如创建目录,复制文件,查看文件内容,更改文件的所有权或权限等操作。翻译 2017-02-11 15:40:21 · 11597 阅读 · 0 评论 -
Apache Hadoop分布式文件系统说明
Apache Hadoop提供了一个分布式文件系统和一个框架,用于使用MapReduce范例转换大型数据集。 HDFS旨在在商用硬件上运行时可靠地存储非常大的数据集。它是容错的,并且提供对存储的数据的高吞吐量访问。虽然HDFS的接口在Unix文件系统之后被图案化,但它放松了一些POSIX要求以提高其目标解决的应用程序的性能,并提供对存储在文件系统中的数据的流式访问。翻译 2017-02-11 16:14:41 · 1840 阅读 · 0 评论 -
Ubuntu Server安装Apache HBase
HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问,是Google的BigTable的开源实现。HBase的目标是存储并处理大型的数据,更具体地说仅用普通的硬件配置,能够处理成千上万的行和列所组成的大型数据库。HBase是一个开源的、分布式的、多版本的、面向列的存储模型。可以直接使用本地文件系统也可使用Hadoop的HDFS文件存储系统。为了提高数据的可靠性和系统的健壮性,并且发挥HBase处理大型数据的能力,还是使用HDFS作为文件存储系统更佳。另外,HBase存储的是原创 2017-02-16 17:13:07 · 805 阅读 · 0 评论