
大数据原理
monster++
帅的一匹
展开
-
大数据环境安装测试-Hbase
通过Xshell 、 Xftp上传 压缩包解压压缩包tar -zxvf hbase-1.1.5-bin.tar.gz -C /usr/local/hbase/修改环境变量 使用vim /etc/profile 命令export HBASE_HOME= /usr/local/hbase/hbase-1.1.5export ## PATH=PATH:PATH:PATH:HBASE_HOME/bin使环境变量生效并验证环境变量生效source /etc/profile查看版本信息hbase ve原创 2020-05-22 15:22:52 · 147 阅读 · 0 评论 -
大数据环境安装测试-Hadoop
首先在阿里云购买一个服务器Linux centos使用Xshell连接(通过ip地址账号密码)通过Xftp 把下载好的jdk、hadoop压缩包放到远程服务器上 文件目录/software执行解压命令分别解压jdk和hadoop压缩包jdk:tar -zxvf jdk-8u162-linux-x64.tar.gz -C /usr/local/java/hadoop:tar -zxvf hadoop-2.7.1.tar.gz -C /usr/local/hadoop/查看jdk 和 hadoop版本原创 2020-05-22 10:51:13 · 198 阅读 · 0 评论 -
大数据原理-图计算
处理图结构数据图结构:数据关联性Pregel:基于BSP模型实现的并行图处理系统有向图作为输入:每个顶点都有:一个String类型的顶点ID一个可修改的用户自定义值与之关联与其源顶点关联并且记录了目标顶点的ID在每个超步S中,图中所有顶点都会执行相同的用户自定义函数每个顶点可以接受前一个超步S-1发给它的信息,修改自身及其射出边的状态,发送信息给其他顶点,甚至修改图的拓扑结构...原创 2020-05-06 12:01:21 · 920 阅读 · 0 评论 -
大数据原理-流计算
概述静态数据:数据仓库Hive只读数据(批量计算)流数据:大量快速、变化实时(实时计算)三大计算框架hadoop:离线批量处理spark:实时查询storm:流计算概念实时获取数据分析获取价值价值随时间降低流计算处理流程数据实时采集:日志数据Agent主动采集数据推送到CollectorCollector接收后实现有序、可靠、高性能的转发存储到Store数据实时计算:...原创 2020-04-28 23:06:54 · 1095 阅读 · 0 评论 -
大数据原理-Spark
概述:基于内存计算三大分布式计算系统:Hadoop、Spark、Storm特点:采用有向无环图DAG作业调度运行速度快循环数据流容易使用:可以通过Spark Shell交互式编程用途:SQL查询、流式计算、机器学习、图算法组件部署:Hadoop的yarn框架调度、单独部署等等Spark主要语言:Scala(scalable可扩展):多范式编程语言(面向对象、函数式编程)兼容...原创 2020-04-21 15:08:33 · 226 阅读 · 0 评论 -
大数据原理-HDFS
HDFS概述核心概念:体系结构原理概述HDFS解决海量的数据分布式存储优势:廉价硬件、实现数据流读写、支持大数据集、支持简单文件模型、跨平台兼容局限:实时性不高、无法存储大量小文件、只支持追加核心概念:抽象块概念设计:64或128MB/个 支持大规模数据存储(文件切割-突破单机存储界限);降低寻址开销(三级寻址 -元数据目录-数据节点-取数据) ;适合数据备份名称节点:主节点 HD...原创 2020-04-16 21:10:21 · 982 阅读 · 0 评论 -
大数据原理-Hadoop
Hadoop概述项目结构核心介绍项目结构:HDFS:MapReduce:概述项目结构核心介绍Hadoop平台是一个开源分布式计算平台,屏蔽了大数据处理底层的细节由Java开发,具有很好的跨平台;可以云计算使用两大核心HDFS+MapReduce:集群分布式处理应用架构:数据分析、数据实时查询、数据挖掘Hadoop利用分布式文件存储作为基础存储数据,用MR(MapReduce)为底层...原创 2020-04-16 17:08:56 · 226 阅读 · 0 评论 -
大数据原理-关键技术
大数据时代大数据的由来关键核心技术计算模式大数据的由来关键核心技术计算模式大数据的由来:4V大数据量、繁多的数据类型、处理数据的速度快、价值密度低使得出现了大数据时代关键核心技术:分布式存储(HDFS、HBase、NoSql、NewSql)分布式处理(MapReduce)计算模式:批处理:大规模数据的批量处理(MapReduce、Spark等等)流计算:数据流实时计算(St...原创 2020-04-16 16:34:38 · 288 阅读 · 3 评论