
大数据
大数据
一做就废
一般很久之前文章的评论不回复,因为我会不记得,不想重新去捋思路。
私信不回复,有事请留言
展开
-
Azkaban 架构 三大关键组件
1) AzkabanWebServer: AzkabanWebServer 是整个 Azkaban 工作流系统的主要管理者,它用户登录认证、 负责 project 管理、 定时执行工作流、跟踪工作流执行进度等一系列任务。2) AzkabanExecutorServer: 负责具体的工作流的提交、执行,它们通过 mysql 数据库来协调任务的执行。3) 关系型数据库( MySQL) : 存储大部分执行流状态, AzkabanWebServer 和AzkabanExecutorServer 都需要访原创 2020-02-27 09:23:13 · 891 阅读 · 0 评论 -
Flume
Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传 输的系统。 Flume 基于流式架构,灵活简单。原创 2020-03-01 15:31:32 · 145 阅读 · 0 评论 -
基于mahout的动漫推荐系统
一个课的大作业,要做一个推荐系统,花了两天的时间,不过组里有同学之前做的推荐系统,这个就没有用上,算自己滴一种锻炼吧,以前都没有接触过这些。很简单,直接用mahout里的taste引擎,用了里面提供的很多种算法。等有时间了把分析补上。效果图:获得结果:源代码https://github.com/lanelane/Demo数据集来源:该数据集包含来自12,294个...原创 2019-10-29 08:33:10 · 1534 阅读 · 2 评论 -
CentOS 7 安装hive / 配置hive元数据入mysql / CentOS7安装mysql5.7 / CentOS8安装mysql8.0
因为某些原因,需要在新安装的CentOS8上安装mysql8.0,但是平时用的机器上都是CentOS7+hive1.2.1+mysql5.7。1 CentOS 7安装hive1.1 Hive安装及配置准备hive安装包apache-hive-1.2.1-bin.tar.gz原创 2020-02-14 10:32:46 · 463 阅读 · 0 评论 -
CentOS7 linux 详细 Hadoop完全分布式配置与启动
因为我是先配置了伪分布式,在此基础上配置完全分布式,所以有些文件不用修改,就没有截图,但是步骤都有的。配置的内容均以我自己的环境为基础。1 环境准备从已有的hadoop01,克隆2台虚拟机分别为hadoop02,hadoop03。...原创 2020-02-23 15:21:56 · 664 阅读 · 0 评论 -
hive insert操作卡死
hive,执行一个简单的insert操作时卡在了 kill command这里看了下rm,nm什么都启动起来了,怀疑mp出错了,随便运行了一个官方案例,果然不对,一直卡在running job这里。无语,我什么也没动啊,昨天insert还好好的。查看了一下nodemanager的log,没有什么问题,又查看了resourmanager的log问题就出在红框这里:...原创 2020-02-21 14:54:34 · 6033 阅读 · 4 评论 -
CentOS 7 Hadoop伪分布式配置 并执行wordcount Mapreduce程序
1 实现伪分布式配置1.1 配置HDFS1 配置core-site.xml:指定hdfs:原创 2020-02-15 13:43:12 · 579 阅读 · 0 评论