
Hadoop大数据
文章平均质量分 92
Hadoop环境搭建以及相关组件整合使用
CDHong.it
一切皆有可能
展开
-
MapReduce运用-案例讲解
MapReduce 是 Google 公司开源的一项重要技术,它是一个编程模型,用以进行大数据量的计算。MapReduce 是一种简化的并行计算编程模型,它使那些没有多少并行计算经验的开发人员也可以开发并行应用程序。模型非常方便使用,即使是对于完全没有分布式程序的程序员也是如此。它隐藏了并行计算的细节。MapReduce运行开发人员使用自己熟悉的语言进行开发。通过MapReduce,应用程序可以在超过1000个节点的大型集群上运行,并且提供经过优化的错误容灾。原创 2022-10-29 12:48:59 · 3566 阅读 · 0 评论 -
通过HDFS API进行HDFS操作
HDFS Java API 位于 org.apache.hadoop.fs 包中,这些API能够支持的操作包括打开文件、读写文件、删除文件等。Hadoop类库中最终面向用户提供的接口类是FileSystem。该类是一个抽象类,只能通过get方法获取到具体的类。该类封装了大部分文件操作,如mkdir、delete等。原创 2022-10-29 12:25:31 · 1778 阅读 · 0 评论 -
Hadoop2.7.3三种安装模式环境搭建
Hadoop的安装方式有三种模式:单机模式(Standalong Mode)、伪分布模式(Pseudo-Distributed Mode)、完全分布式模式(Fully-Distributed Mode)。原创 2022-10-29 12:16:53 · 4842 阅读 · 0 评论 -
CentOS7搭建Hadoop3.3.1伪分布式环境整合HBase2.2.6
CentOS7 搭建Hadoop3.3.1伪分布式环境,整合HBase2.2.6原创 2022-06-05 18:39:50 · 1056 阅读 · 3 评论 -
Spark-Core编程
Spark简介Spark是加州大学伯克利分校AMP实验室开发的通用内存并行计算框架。Spark使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集,具有以下特点。运行速度快:Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。官方提供的数据表明,如果数据由磁盘读取,速度是Hadoop MapReduce的10倍以上,如果数据从内存中读取,速度可以高达100多倍。易用性好:Spark不仅支持Scala编写应用程序,而且支持Java和P原创 2022-04-12 20:47:53 · 1834 阅读 · 0 评论 -
ClouderaManager管理平台搭建(CDH6.2.1)
CM 简介Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具,使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。CM 架构CM部署准备配置下载 CDH6-CentOS7 离线软件安装包下载 CM6-CentOS7 集群安装软件包使用 VMware 克隆三台机器,分别修改对应的 IP 及 主机名,使用 MobaXterm 连接测试。主机名IP地址内存硬盘CUP服务进程原创 2021-05-18 20:01:46 · 1587 阅读 · 4 评论 -
Hadoop大数据综合案例6--数据可视化(SpringBoot+ECharts)
Spring Boot 简介由于Spring是一个轻量级的企业开发框架,主要的功能就是用于整合和管理其他框架。但随着整合的框架越来越多,Spring的整合配置也日益繁琐,一度被人认为“配置地狱”。随着Spring 3.0的发布,Spring IO团队逐渐开始摆脱XML配置文件,并且在开发过程中大量使用约定优先配置的思想来摆脱Spring框架中各类繁复纷杂的配置(即时是Java Config)。SpringBoot 正是在这样的一个背景下被抽象出来的开发框架,它本身并不提供Spring框架的核心特性以及扩原创 2021-05-17 20:19:38 · 20628 阅读 · 3 评论 -
Hadoop大数据综合案例5-SSM可视化基础搭建
数据可视化是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,从而进行交互处理的理论、方法和技术。数据可视化涉及计算机图形学、图像处理、计算机视觉、计算机辅助设计等多个领域,成为研究数据表示、数据处理、决策分析等一系列问题的综合技术。有效的可视化可以帮助用户分析、推理数据。数据可视化使复杂的数据更容易理解和使用。系统架构招聘网站职位分析可视化系统以JavaWeb为基础搭建,通过SSM(Spring、Springmvc、Mybatis)框架实现后端功能,前端在Jsp中使用Echart原创 2021-05-17 20:13:28 · 4989 阅读 · 14 评论 -
Hadoop大数据综合案例4-Hive数据分析
大数据价值链中最重要的一个环节就是数据分析,其目标是提取数据中隐藏的数据,提供有意义的建议以辅助制定正确的决策。通过数据分析,人们可以从杂乱无章的数据中萃取和提炼有价值的信息,进而找出研究对象的内在规律。数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,从行业角度看,数据分析是基于某种行业目的,有目的的进行收集、整理、加工和分析数据的过程,通过提取有用信息,从而形成相关结论,这一过程也是质量管理体系的支持过程。数据分析的作用包含推测或解释数据并确定如何使用数据、检查数据是否合法、为决策提供参考建原创 2021-05-17 20:09:59 · 13326 阅读 · 9 评论 -
Hadoop大数据综合案例3-MapReduce数据预处理
由于海量数据的来源是广泛的,数据类型也是多而繁杂的,因此,数据中会夹杂着不完整的、重复的以及错误的数据,如果直接使用这些原始数据的话,会严重影响数据决策的效率。因此,对原始数据进行预处理是大数据分析和应用过程中的关键环节。数据分析查看我们采集的数据,通过观察它的数据结构以及分析我们所需要的维度选择合适的预处理方案。通过JSON格式化工具对数据文件page1的数据内容进行格式化处理,查看储存了职位信息的result字段。MapReduce程序实现数据预处理的过程通过编写MapReduce程序,实现原创 2021-05-17 20:07:47 · 10716 阅读 · 13 评论 -
Hadoop大数据综合案例2-HttpClient与Python招聘网数据采集
在大数据时代背景下,未被使用的信息比例高达99.4%,原因很大程度都是由于高价值的信息无法获取采集。因此,如何从大数据中采集出有用的信息已经是大数据发展的关键因素之一,数据采集可视为大数据产业的基石。在编写数据采集程序之前,先对网络数据采集所涉及的知识做简单介绍,已奠定网络数据采集的基础知识。HTTP请求过程在浏览器中输入一个URL,链接便可以在浏览器页面中浏览该URL的页面内容,从输入的URL链接到浏览页面内容,整个过程是通过浏览器向网站所在服务器发送了一个HTTP请求,请求头会包含一些这个请求的信原创 2021-05-17 20:04:39 · 10211 阅读 · 3 评论 -
Hadoop大数据综合案例1-Hadoop2.7.3伪分布式环境搭建
部署前提配置映射地址 ( /etc/hosts )关闭防火墙 ( systemctl stop firewalld systemctl disable firewalld )关闭Linux 安全子系统 SELinux ( /etc/sysconfig/selinux | /etc/selinux/config )使用 ping baidu.com 测试网络是否联通,安装 vim 编辑器 ( yum install vim )配置主机的 hosts 映射 ( C:\Windows\Syste原创 2021-05-17 19:50:57 · 4121 阅读 · 0 评论