
大数据
文章平均质量分 95
Hadoop学习实践结合国外Hadoop大数据研究人员的相关文章加以学习,力图能在实际应用中得以实践。
boonya
资深Java,热衷大数据,Python爬虫,持续探索副业中,有需要的可以加我微信联系:boonya221
展开
-
StarRocks强大的实时数据分析
StarRocks是新一代极速全场景MPP(MassivelyParallelProcessing)数据库。StarRocks的愿景是能够让用户的数据分析变得更加简单和敏捷。用户无需经过复杂的预处理,就可以用StarRocks来支持多种数据分析场景的极速分析。StarRocks架构简洁,采用了全面向量化引擎,并配备全新设计的CBO(CostBasedOptimizer)优化器,查询速度(尤其是多表关联查询)远超同类产品。原创 2025-01-20 11:07:42 · 1516 阅读 · 0 评论 -
2023年面向Java开发者的顶级大数据工具
在数据驱动决策的现代时代,每天产生的大量数据使得开发强大的工具来处理、分析和从这些海量数据集中获取见解成为必要。Java 开发人员精通最广泛使用的编程语言之一,可以使用各种工具来应对大数据的挑战。在这里,我们深入研究了专为 Java 开发人员量身定制的四种顶级大数据工具:Apache Hadoop、Apache Spark、DeepLearning4j 和 JSAT。翻译 2024-10-08 22:13:30 · 838 阅读 · 0 评论 -
2024 年 25 个大数据项目 [附源代码]
近年来,大数据和人工智能蓬勃发展,对这些技术的重视将推动它们走向新的高度。公司已经意识到大数据的价值,各种各样的机会正在敲开你的大门。如果你是一名大四的大数据专业学生,现在是开始从事大数据项目的理想时机。本文为您的下一个大数据项目提供了当前建议。您可以查看最好的大数据课程,深入了解大数据工具和技术,为在该领域的工作做好准备。本文将提供大数据项目示例、针对大四学生的大数据项目、带有源代码的数据小项目和一些大数据示例项目。本文还将讨论一些使用 Hadoop 的大数据项目和使用 Spark翻译 2024-10-08 21:42:28 · 1659 阅读 · 0 评论 -
数据湖数据仓库数据集市数据清理以及DataOps
一提到大数据我们就知道是海量数据,但是我们并不了解需要从哪些维度去考虑这些数据的存储。比如 数据湖、数据仓库、数据集市,以及数据自动化应用DataOps有哪些实现方式和实际应用,这篇文章将浅显的做一次介绍。原创 2024-10-08 14:59:04 · 2344 阅读 · 0 评论 -
大数据ETL数据提取转换和加载处理
提取转换加载(英语:Extract, transform, load,简称ETL),用来描述将资料从来源端经过抽取、转置、加载至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于ETL(提取、转换、加载)指数据驱动型组织从多个来源收集数据,然后将数据集中起来以满足数据发现、报告、分析和决策需求的过程。在 ETL 流程中,各种数据源的类型、格式、规模和可靠性可能大不相同,因此数据要经过处理才能供组织和用户使用。同时,面对不同的目标和技术实施条件,组织可能使用数据库、数据仓库或数据湖来存储目标数据。原创 2024-10-08 12:02:14 · 3153 阅读 · 0 评论 -
【点燃大数据】最新Hadoop3.x及其常用组件集群安装
如果你对大数据感兴趣,这篇文章将带你进入大数据环境的准备和安装。万事开头难,请耐心读完工具和环境部分,这部分给大家介绍了本文将要使用到的工具组件,在最后会提供一个完整的安装包资源和代码资源供大家学习之用。原创 2024-09-26 14:18:32 · 1265 阅读 · 1 评论 -
Apache Hadoop3.2.2与Spark3.0.0环境安装
基础环境说明系统环境:centos8主机名:www.boonya.cnvi /etc/hosts127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 www.boonya.cn boonya.cn::1 localhost localhost.localdomain localhost6 localhost6.localdomain6JDK基础环境安装下载并解压.原创 2021-02-17 15:20:56 · 3519 阅读 · 0 评论 -
Hadoop默认提供的字数统计示例运行
开始之前先了解 hadoop fs 命令使用,然后再通过运行示例程序来观看Hadoop的简单运行效果。目录Hadoop fs命令基本目录操作创建输入目录创建输出目录删除目录操作上传作业文件执行MapReduce计算定位执行目录运行指令运行状态执行成功日志查看执行结果注意事项输出目录必须是不存在的目录执行过程中出错classpath未配...原创 2019-01-03 17:09:45 · 2283 阅读 · 2 评论 -
Hadoop集群多次格式化导致容量分配为0不能导入数据
目录遇到问题解决问题验证处理情况查看集群状态遇到问题使用hadoop fs -put 命令上传文件发现失败,报了以下错误:03/01/19 15:18:03 WARN hdfs.DFSClient: DataStreamer Exceptionorg.apache.hadoop.ipc.RemoteException(java.io.IOException): ...原创 2019-01-03 15:28:10 · 4740 阅读 · 0 评论 -
官网教程:什么是Apache Hadoop?
英文原文地址:http://hadoop.apache.org/Apache™Hadoop®项目为可靠的,可扩展的分布式计算开发开源软件。Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器提供本地计算和存储。该库本身不是依靠硬件来提供高可用性,而是设计用于在应用层检测和处理故障,从而在一组计算机之上提供...翻译 2018-06-18 18:08:33 · 2550 阅读 · 0 评论 -
Linux Ubuntu server 15.04 amd-64编译Apache Hadoop 2.7.2源码
为解决Unable to load native-hadoop library for your platform 异常需要修改/etc/profile文件下的Hadoop配置:export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib" 注:主要问题是对应的lib下没有64位编译的包。原创 2017-02-20 11:51:39 · 1333 阅读 · 0 评论 -
Ubuntu Server安装Apache HBase
HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问,是Google的BigTable的开源实现。HBase的目标是存储并处理大型的数据,更具体地说仅用普通的硬件配置,能够处理成千上万的行和列所组成的大型数据库。HBase是一个开源的、分布式的、多版本的、面向列的存储模型。可以直接使用本地文件系统也可使用Hadoop的HDFS文件存储系统。为了提高数据的可靠性和系统的健壮性,并且发挥HBase处理大型数据的能力,还是使用HDFS作为文件存储系统更佳。另外,HBase存储的是原创 2017-02-16 17:13:07 · 805 阅读 · 0 评论 -
CentOs7 安装Hadoop-3.1.0集群环境
虚拟机准备 master 172.16.20.11slave1 172.16.20.12slave2 172.16.20.13安装JDKversion 1.8.0_121,注意需要配置环境变量。安装:参考https://blog.youkuaiyun.com/boonya/article/details/55506386 SSH免密登录1、修改hostname...原创 2018-06-17 16:25:57 · 4094 阅读 · 0 评论 -
Ubuntu Server安装Apache Hadoop
实践出真知“千里之行,始于足下。”学习任何东西都是这样。本文所需环境:Linx(Ubuntu server15.04),Hadoop(hadoop-2.7.2),OS(windows amd 64)原创 2017-02-15 13:51:53 · 2056 阅读 · 1 评论