
大数据平台
文章平均质量分 59
萌哒老司机
不怎么上线,私信看到了会回
展开
-
大数据平台复习12.Spark streaming与Flume/kafka的结合(程序已更新,上传到资源里了大家可以免费下载)
Flume的介绍一个分布式的、高可靠、高可用日志收集和汇总的工具能够将大批量的不同数据源的日志数据收集、聚合、移动到数据中心进行存储是Apache软件基金会下、Hadoop生态系统中的一个开源项目在实际中,Flume的使用不仅仅局限于日志数据收集聚合,还可以用于传输网络流量数据、社交媒体数据、电子邮件消息等。Flume通过在数据产生的节点上启动agent来收集数据,并推送给其他的Flume的agent或者HDFS、Hbase等数据存储系统。一个agent就是一个java进程,它包括了三个组件:S原创 2021-07-06 23:44:55 · 367 阅读 · 4 评论 -
大数据平台复习11.Spark streaming
流数据大数据的两种存在形式:静态和动态静态大数据:已经积累产生并存在那里的大数据动态大数据:随着时间的推移不断的产生的大数据各种摄像头的监控数据12306的订票请求银行的交易请求Storm最早是由Nathan Marz和他的团队于2010年在数据分析公司BackType开发2011年BackType公司被Twitter收购,接着Twitter开源Storm2014年成为Apache顶级项目Storm被业界称为实时版的Hadoop,它与Hadoop、Spark并称为Apache基金会三大原创 2021-07-06 23:18:56 · 489 阅读 · 5 评论 -
大数据平台复习10.基于pySpark的TF-IDF算法实践
from pyspark import SparkConf, SparkContextimport math #以下为计算过程中需要用到的几个函数# 该函数主要是统计一个文档中包含哪些单词def word_contains(words_list): words_set=set(words_list)#将列表转为set,去除重复的单词 return list(words_set)#再将set转为列表返回 # 计算每个单词的逆文档频率idfdef computeIDF(w原创 2021-07-06 22:35:03 · 369 阅读 · 0 评论 -
大数据平台复习九.Spark的进一步实践
spark +hbaseHbase:一个高可靠、高性能、面向列、可伸缩的分布式数据库,主要用来存储非结构化和半结构化的松散数据基于Scala语言新建一个maven项目来测试如何读写Hbase中的数据该项目将读取我们在介绍Hbase时创建的usr_beha表中的数据该表包含了两个列族:attr和beha。attr: attr列族主要存储用户属性数据,目前只包含了一个名为name的列beha: beha列族主要存储用户的行为数据,目前只包含了一个名为watch的列项目的任务:首先从该表中读取数据,原创 2021-07-06 19:02:02 · 136 阅读 · 0 评论 -
大数据平台复八.Scala语言与Spark的基本操作
Scala是类似于Java的编程语言,集成了面向对象和函数式语言的特点是一门非常纯粹的面向对象编程语言,Scala中每个值都是对象,每个操作都是方法调用它运行于Java虚拟机之上,兼容Java语言,Scala程序可以使用Java类型,调用Java方法,继承Java类和实现Java接口通过借鉴函数式编程的思想,它相比于Java等面向对象程序可以以一种更简洁更容易的方式编写程序,同时也能够更好的支持分布式环境下的并行计算val textFile = sc.textFile("file:///home/原创 2021-07-06 18:36:50 · 166 阅读 · 0 评论 -
大数据平台复习七.spark基本原理
MapReduce的编程模型表达能力有限MapReduce计算框架将计算任务抽象为map和reduce两个计算任务,这简化了编程过程,但也导致MapReduce的编程模型表达能力有限。当实际中有些处理过程比较复杂时,我们需要建立多个MapReduce过程并连接起来,这也使得MapReduce的编程过程变得复杂。无法实现快速的迭代计算当一个复杂的需求涉及多个MapReduce计算任务时,MapReduce只能一个任务完成之后将结果写入磁盘,另一个计算任务才能开始,无法实现快速的迭代计算。MapRed原创 2021-07-06 13:33:35 · 354 阅读 · 0 评论 -
大数据平台复习五.Hbase的基本原理
HDFS可以支持海量的数据存储但是,无法支持海量数据的随机读写!!2006年12月,Google发布了其云计算技术的第三篇著名论文《Bigtable: A Distributed Storage System for Structured Data》是Bigtable的开源实现,第一个可用版本于2007诞生Hadoop的重要分支,是建立在HDFS之上的一个分布式、面向列的开源数据库系统具有高可靠性、高性能、列存储、可伸缩、实时读写等重要特征文件系统最常见的数据存储方式文件都是由某个具体的应用原创 2021-07-05 22:54:29 · 456 阅读 · 1 评论 -
大数据平台复习四.实现conbiner和统计单词总个数以及总结
Combine 这个类它继承的是reducer 在单个词频统计这个任务中和reducer除了名字外几乎没有不同的地方。二.实现统计文本的单词总个数把第一个mapreduce 的结果作为第二个mapreduce的输入,这里再写一个mapper。本人最开始的mapper类写法。把整个whilez都注释掉了,没有注意到context write 那个操作也被注释掉了,结果就是,程序跑下来没有报错,但是第二个job的输出是空的什么都没有。后来发现没有write进去任何东西,修改。设置第一个job的输出作原创 2021-07-05 22:21:16 · 339 阅读 · 1 评论 -
大数据平台复习三.Hadoop的数据类型与MapReduce输入格式
Hadoop自定义数据类型的原因Hadoop在数据的存储和传输过程中将数据进行了序列化序列化就将数据以字节流的形式进行存储和传输由于Hadoop中的计算涉及集群中的各个节点,大量的数据需要在集群中传输,序列化的目的就是使得不同的数据类型以统一的格式在集群中进行存储和传输,从而便于对数据传输的管理和控制。在计算过程中,当一个节点收到序列化之后的字节流数据时,根据数据原始的类型通过反序列化操作,便可得到原始格式的数据细看实验及实验报告,FileInputFormat的getSplits方法,Line.原创 2021-07-05 17:42:07 · 137 阅读 · 0 评论 -
大数据平台复习二. MapReduce
简述什么是MapReduceHadoop下的一个负责分布式计算的组件一个软件系统,运行于HDFS之上定义了一种实现分布式计算的框架负责计算任务在集群中的分配调度、负载均衡、容错处理、网络通信等一系列问题方便编程人员在不熟悉分布式并行编程的情况下,能够编写程序对分布式环境下的大数据进行处理借鉴了函数式编程函数:集合之间的一种映射关系不同于命令式编程,函数式编程关注集合之间的映射关系函数可以作为另一个函数的输入和输出MapReduce框架将分布式环境下的并行大数据处理过程抽象为两个函数:原创 2021-07-05 16:58:17 · 233 阅读 · 0 评论 -
大数据平台复习一. HDFS
什么是文件系统操作系统的一部分是一个软件程序在用户和计算机的存储设备之间建立桥梁主要职责建立了一个硬盘等存储设备中存储内容的目录结构一般采用树形结构,表示存储内容的不同层次目录中的每个组成项称为一个文件,目录的树形结构也存储了文件之间的关系提供了相应的命令和接口来便于用户对存储设备的读写操作当面临海量的数据时……单台计算机的文件系统可能无法存储所有的数据!利用网络将大量的计算节点互联,向下将各个节点中的存储容量进行集中管理,向上为用户提供透明化服务,人们在使用分布式文件系统时,就像使用本原创 2021-07-05 16:10:14 · 224 阅读 · 2 评论