
大数据
蒙蒙的林先生
三年Java互联网金融工作经验
展开
-
大数据 - Hadoop - HDFS
Hadoop是一个专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。原创 2019-02-21 15:56:24 · 1336 阅读 · 0 评论 -
大数据 - Spark常用算子
从大方向来说,Spark 算子大致可以分为以下三类:1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。2)Action 行动算子:这类算子会触发 SparkContext 提...原创 2019-05-15 15:51:36 · 2329 阅读 · 0 评论 -
大数据 - Hive介绍和安装使用
hive下载地址http://mirror.bit.edu.cn/apache/hive/这里选择apache-hive-2.3.4-bin.tar.gz通过远程工具上传到指定目录,这里上传的/app/目录下解压到当前文件夹[root@hadoop1 app]# tar -vzxf apache-hive-2.3.4-bin.tar.gz修改环境变量[root@hadoop1 app...原创 2019-03-22 15:51:21 · 1647 阅读 · 0 评论 -
大数据 - Spark Streaming介绍和实战
Spark Streaming Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从数据源获取数据之后,可以使用诸如map、reduce、join和wi...原创 2019-03-22 15:46:17 · 1643 阅读 · 0 评论 -
大数据 - Spark介绍和环境搭建
Spark简单介绍、本地运行模式 (单机)和spark standalone集群搭建原创 2019-03-11 15:33:34 · 2742 阅读 · 0 评论 -
大数据 - Spark开发环境(IDEA)
Spark运行模式,IDEA开发环境,远程调试spark standalone集群原创 2019-03-19 17:42:46 · 2110 阅读 · 0 评论 -
大数据 - Java实现提交作业到Hadoop集群
环境IntelliJ IDEAJDK1.8hadoop-2.8.5.tar.gz下载从官网上下载解压JDK,Hadoop。解压到自己喜欢的目录下。配置windows环境变量Java环境变量就不写了,都应该知道变量名:HADOOP_HOME 路径:E:\hadoop\hadoop-2.8.5变量名:HADOOP_BIN_PATH 路径:%HADOOP_H...原创 2019-03-05 15:20:50 · 2485 阅读 · 0 评论 -
大数据 - Hadoop - YARN
Hadoop - YARN旧的MapReduce架构JobTracker: 负责资源管理,跟踪资源消耗和可用性,作业生命周期管理(调度作业任务,跟踪进度,为任务提供容错)TaskTracker: 加载或关闭任务,定时报告认为状态此架构会有以下问题:JobTracker是MapReduce的集中处理点,存在单点故障JobTracker完成了太多的任务,造成了过多的资源消耗,当MapRed...原创 2019-02-25 19:17:05 · 341 阅读 · 0 评论 -
大数据 - Hadoop安装
Hadoop完全分布式集群安装原创 2019-02-28 17:33:55 · 1608 阅读 · 0 评论 -
大数据-入门介绍
大数据定位大数据背景大数据的4V特征Hadoop能做什么:Hadoop核心组件HDFS(分布式文件系统)原创 2019-02-18 18:24:15 · 1338 阅读 · 0 评论 -
大数据 - 统计分析平台架构介绍
目的主要功能是对某个互联网产品多个系统产生的日志进行收集,对各系统的日志格式进行统一,存储到平台特定目录下面。在Azkaban任务调度系统中配置job,对平台上的数据进行ETL操作和分析,将最终产生的结果数据存储到Mysql,redis或elastics中,分别用作报表展示,或者App特定功能的数据来源。原创 2019-07-12 17:22:35 · 3975 阅读 · 0 评论