
开发环境的搭建
文章平均质量分 95
孤独的偷学者
这个作者很懒,什么都没留下…
展开
-
大数据常用的算法与数据结构
1 布隆过滤器(Bloom Filter)Bloom Filter(简称BF),是二进制向量数据结构,常被用来检测某个元素是否是巨量数据集合中的成员优点具有很好的空间和时间效率,尤其是空间效率极高:因为不需要存储集合数据本身内容不会漏判(False Negative)缺点:查询某个成员是否属于集合时,会发生误判(False Positive):即如果某个成员不在集合中,有可能BF会得出其在集合中的结论:因此只能适用于允许一定误判率的情况1.1 基本原理BF可以高效地表征集合数据:使用长原创 2021-12-23 20:38:42 · 2445 阅读 · 0 评论 -
数据复制与一致性
1 基本原则与设计理念1.1 原CAP含义CAP 是对“Consistency/Availability/Partition Tolerance"的一种简称,其内在含义如下:强一致性(Consistency):即在分布式系统中的同一数据多副本情形下,对于数据的更新操作体现岀的效果与只有单份数据是一样的。可用性(Availability):客户端在任何时刻对大规模数据系统的读/写操作都应该保证在限定延时内完成。 分区容忍性(Partition Tolerance):在大规模分布式数据系统中,网络分原创 2021-12-23 18:37:43 · 2397 阅读 · 0 评论 -
Hive学习笔记四之Hive实战
需求描述:统计某个影音视频网站的常规指标,各种 TopN 指标:– 统计视频观看数 Top10– 统计视频类别热度 Top10– 统计出视频观看数最高的 20 个视频的所属类别以及类别包含 Top20 视频的个数– 统计视频观看数 Top50 所关联视频的所属类别排序– 统计每个类别中的视频热度 Top10,以 Music 为例– 统计每个类别视频观看数 Top10 – 统计上传视频最多的用户 Top10 以及他们上传的视频观看次数在前 20 的视频数据结构视频表用户表..原创 2021-12-09 19:38:17 · 830 阅读 · 0 评论 -
Hive学习笔记三之函数操作
5 函数5.1 系统内置函数1)查看系统自带的函数hive> show functions;2)显示自带的函数的用法hive> desc function upper;3)详细显示自带的函数的用法hive> desc function extended upper;数据准备:5.2 常用内置函数5.2.1 空字段赋值1)函数说明NVL:给值为 NULL 的数据赋值,它的格式是 NVL( value,default_value)。它的功能是如果 val原创 2021-12-09 18:00:01 · 1149 阅读 · 0 评论 -
Hive学习笔记二之表操作
一些与常见的sql语言,我在这里不在赘述了1 DDL 数据定义CREATE DATABASE [IF NOT EXISTS] database_name[COMMENT database_comment][LOCATION hdfs_path][WITH DBPROPERTIES (property_name=property_value, ...)];创建一个数据库,数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db create database原创 2021-12-09 10:47:57 · 1864 阅读 · 0 评论 -
Flink的简介
1 Flink的介绍1.1 Apache Flink 简介1.1.1 Apache Flink是什么 Apache Flink (简称Flink) 是一个高吞吐、低延迟的分布式流/批处理 引擎框架 ,可以在 无边界和有边界数据流中进行 有状态的计算。在实时处理上,它提供对 事件的支持,解决了实时领域和传统的服务端开发领域 消息无序问题,而且Flink还 提供了Exactly Once语义的支持,保证了实时数据处理的正确性。 在部署方面Flink既可以在服务器上进行独立部署(Stand原创 2021-12-08 11:05:11 · 1979 阅读 · 0 评论 -
Hbase的介绍与安装
1 HBase 简介HBase —— Hadoop Database的简称,Google BigTable的另一种开源实现方式,从问世之初,就为了解决用大量廉价的机器高速存取海量数据、实现数据分布式存储提供可靠的方案。从功能上来讲,HBase不折不扣是一个数据库,与我们熟悉的Oracle、MySQL、MSSQL等一样,对外提供数据的存储和读取服务。而从应用的角度来说,HBase与一般的数据库又有所区别,HBase本身的存取接口相当简单,不支持复杂的数据存取,更不支持SQL等结构化的查询语言;HBase也没原创 2021-12-07 19:15:01 · 2511 阅读 · 0 评论 -
Hive学习笔记之hive的介绍与安装
1 Hive 基本概念1.1 什么是 Hivehive 简介Hive:由 Facebook 开源用于解决海量结构化日志的数据统计工具。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,提供类 SQL 查询功能。...原创 2021-12-05 09:36:16 · 2036 阅读 · 1 评论 -
大数据常用命令总结
Linux(vi/vim)一般模式语法功能描述yy复制光标当前一行y数字y复制一段(从第几行到第几行)p箭头移动到目的行粘贴u撤销上一步dd删除光标当前行d数字d删除光标(含)后多少行x删除一个字母,相当于delX删除一个字母,相当于Backspaceyw复制一个词dw删除一个词shift+^移动到行头shift+$移动到行尾1+shift+g移动到页头,数字shift+g移动到原创 2021-12-01 23:48:01 · 556 阅读 · 0 评论 -
Spark学习笔记一
1 基于Standalone 模式部署Spark集群local 本地模式毕竟只是用来进行练习演示的,真实工作中还是要将应用提交到对应的集群中去执行,这里我们来看看只使用 Spark 自身节点运行的集群模式,也就是我们所谓的独立部署(Standalone)模式。Spark 的 Standalone 模式体现了经典的 master-slave 模式。集群规划。1.1 上传与解压Spark压缩包将spark安装包上传至虚拟机中的指定路径上解压缩文件tar -zxvf spark-3.0.0-b原创 2021-11-30 16:53:14 · 1023 阅读 · 0 评论 -
Hadoop学习笔记之MapReduce(二)
3 MapReduce 框架原理MapReduce总体步骤:3.1 InputFormat 数据输入3.1.1 切片与 MapTask 并行度决定机制(1)问题引出 MapTask 的并行度决定 Map 阶段的任务处理并发度,进而影响到整个 Job 的处理速度。 思考:1G 的数据,启动 8 个 MapTask,可以提高集群的并发处理能力。那么 1K 的数据,也启动 8 个 MapTask,会提高集群性能吗?MapTask 并行任务是否越多越好呢?哪些因素影响了 MapTask 并行度?原创 2021-11-29 19:31:59 · 709 阅读 · 0 评论 -
Hadoop学习笔记之Yarn
1 Yarn 资源调度器在开始讲述Yarn之前我们应该思考:1、Hadoop如何管理集群资源?2、Hadoop如何给任务合理分配资源?这一切都是通过Yarn来进行的,所以Yarn是个什么东西呢? Yarn 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于 一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于 操作系统之上的应用程序。1.1 Yarn 基础架构YARN 主要由 ResourceManager、NodeManager、Applicatio原创 2021-11-25 19:30:36 · 908 阅读 · 0 评论 -
Hadoop学习笔记之MapReduce(一)
2 Hadoop 序列化2.1 序列化概述什么是序列化?序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。为什么要序列化?一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。 然而序列化可以存储“活的”对象,可以将“活的”对象发送到远程计算机。为什么不用 Java 的序列化原创 2021-11-27 10:12:47 · 1044 阅读 · 0 评论 -
Flume学习笔记
1:Flume概述1.1: Flume 定义 Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的 海量日志采集、聚合和传输的系统 。Flume 基于流式架构,灵活简单。为什么选用Flume:1.2: Flume 基础架构Flume 组成架构如图所示:下面我们来详细介绍一下 Flume 架构中的组件:Agent Agent 是一个 JVM 进程,它以事件的形式将数据从源头送至目的。 Agent 主要有 3 个部分组成,Source、Channel、Sin原创 2021-08-25 11:50:09 · 446 阅读 · 0 评论 -
kafka学习笔记
1:kafka概述1.1:定义 Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。1.2: 消息队列1.2.1: 传统消息队列的应用场景使用消息队列的好处:解耦允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。可恢复性系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在系统恢复后被处理。缓冲有助于控制和优化数据流经过原创 2021-08-20 11:43:47 · 169 阅读 · 0 评论 -
Hadoop学习笔记之Hadoop的介绍与安装
文章目录1 Hadoop概述1.1 Hadoop是什么?1.2 Hadoop的优势(4高)1.3 Hadoop的组成1.3.1 HDFS架构概述1.3.2 YARN 架构概述1.3.3 MapReduce 架构概述1.3.4 HDFS、YARN、MapReduce 三者关系1.3.5 大数据技术生态体系2 Hadoop 运行环境搭建(开发重点)2.1 在在 hadoop104下安装 Hadoop2.2 Hadoop 目录结构3 Hadoop 运行模式3.1 本地运行模式(官方 WordCount)3.2原创 2021-11-22 17:01:22 · 1368 阅读 · 0 评论 -
ZooKeeper学习笔记
1、Zookeeper入门1.1、Zookeeper是什么?Zookeeper 是一个开源的分布式的,为分布式框架提供协调服务的 Apache 项目。1.1.1、Zookeeper工作机制1.1.2:Zookeeper的特点1.1.3:数据结构ZooKeeper 数据模型的结构与 Unix 文件系统、HDFS很类似,整体上可以看作是一棵树,每个节点称做一个 ZNode。每一个 ZNode 默认能够存储 1MB 的数据(存储空间很小,所以不能用来存储数据,可以用来存储简单的配置信息),每个 ZN转载 2021-11-21 11:33:10 · 199 阅读 · 0 评论 -
如何搭建一个简单的Liunx开发环境
这篇文章主要介绍在Linux虚拟机中如何安装Mysql、JDK以及静态IP的设置。以下操作均是使用root用户1、Mysql的安装在 /opt 目录下创建并进入 mysql 目录:运行:wget http://dev.mysql.com/get/mysql-5.7.26-1.el7.x86_64.rpm-bundle.tar 下载mysql5.7的安装包卸载Centos下原有的mariadb数据库,不然会跟mysql产生冲突。运行 rpm -qa|grep mari ,查询mar原创 2021-11-18 13:46:57 · 1087 阅读 · 0 评论 -
如何安装一个Linux虚拟机
因为程序员之后要经常在Linux系统下完成任务,所以学习如何安装一个Linux虚拟机以及如何完成它的环境配置是十分重要的,这篇文章将介绍如何安装配置虚拟机,我使用的是centos7.6的版本。1、使用Vmware来安装Centos系统首先新建一个虚拟机:选择典型就可以了:将自己下载的相应系统的iso地址导入就行:创建一个新的用户(并不是根用户root),设置它的密码,此时root密码将跟该用户的密码一致。当然也可以不在这里创建用户,后面还有另外的方法可以创建新的用户。用户根据自己的需要设原创 2021-11-18 11:06:43 · 1215 阅读 · 0 评论