
hadoop
文章平均质量分 98
无忧→捕获一只程序员
无忧→捕获一只程序员
展开
-
python-hadoop-bigdata 大数据-数据可视化
大数据-数据可视化大数据处理的数据我们需要将其进行,图形化展示效果图js代码 var option1 = { tooltip: {}, legend : { data: ['销量'] }, xAxis:{ data: {{ country }}, }, yAxis: { }, ser.原创 2020-07-29 09:03:12 · 1043 阅读 · 0 评论 -
Hadoop 生态圈 - 大数据竞赛 - 环境部署需求
经验 | Hadoop 生态圈 - 大数据竞赛 - 环境部署需求环境部署方面任务需求完成 hadoop 环境部署完成高可用集群环境部署完成高可用集群故障转移完成 hive 环境部署完成 mysql 与 hive使用 Mysql 作为外置存储引擎(机器学习 ~~~ 略过)完成效果展示:进程启动:web 页面:使用 Mysql 作为外置存储引擎...原创 2020-07-29 09:00:48 · 529 阅读 · 0 评论 -
Hadoop生态圈-高可用集群
Hadoop生态圈-高可用集群Hadoop生态圈即全部组件 - 原创wnagwei(qq:140691703@qq.com) 转载复制请联系作者,未经允许擅自操作,将追究法律责任高可用集群自动故障转移工作 机制1) 故障检测:故障检测:集群中的每个 NameNode 在 ZooKeeper 中维护了一个持久会话,如果机器崩溃,ZooKeeper 中的会话将终止,ZooKeeper 通知另一个 NameNode 需要触发故障转移。2)现役 NameNode 选择:现役 Name原创 2020-07-29 08:58:45 · 62058 阅读 · 0 评论 -
Hadoop生态圈hive应用
第 1 章 Hive 基本概念1.1 什么是 HiveHive:由 Facebook 开源用于解决海量结构化日志的数据统计。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。1.2 Hive 的优缺点1.2.1 优点1) 操作接口采用类 SQL 语法,提供快速开发的能力(简单、容易上手)。2) 避免了去写 MapReduce,减少开发人员的学习成本。3) Hive 的执行延迟比较高,因此 Hive 常用于数原创 2020-07-29 08:56:53 · 61029 阅读 · 0 评论 -
Hadoop 生态圈 - 完全分布式
Hadoop 完全分布式-wangweiHadoop生态圈即全部组建 - 原创wnagwei(qq:140691703@qq.com) 转载复制请联系作者,未经允许擅自操作,将追究法律责任完全分布式运行模式(开发重点)分析:1)准备3台客户机(关闭防火墙、静态ip、主机名称)2)安装JDK3)配置环境变量4)安装Hadoop5)配置环境变量6)配置集群7)单点启动8)配置ssh9)群起并测试集群环境:镜像文件:CentOS7.4三台主机..原创 2020-07-29 08:49:33 · 60797 阅读 · 0 评论 -
Hadoop - 1.Hadoop 的运行环境介绍
hadoop 主要有三种运行模式:[单机模式][伪分布模式][完全分布模式]单机模式其中在单机模式下所有 3 个 XML 文件均为空,当配置文件为空时,Hadoop 会完全运行在本地,因为不需要与其他节点交互,单机模式就不使用 HDFS,也不加载任何 Hadoop 的守护进程。该模式主要用于开发调试 MapReduce 程序的应用逻辑。伪分布式模式在伪分布式模式下是指在“单节点集群”上运行 Hadoop,其中所有的守护进程都运行在同一台机器上,即 Jobtracker、Tasktr原创 2020-07-22 10:01:53 · 783 阅读 · 0 评论