- 博客(13)
- 收藏
- 关注
原创 Spark简介
同时,Spark 还可以与多种存储系统和数据源集成,并提供了丰富的语言接口和集群管理器集成,以满足不同的数据处理和分析需求。此外,Spark 还提供了丰富的机器学习和图处理库,以支持大规模数据集的机器学习和图处理任务。此外,Spark 对于 PB 级别的数据处理能力不如 Hadoop,但是 Spark 可以与其他存储系统集成,以支持更大规模的数据处理。Spark MLlib:Spark 的机器学习库,它提供了一系列机器学习算法,以支持大规模数据集的机器学习任务。
2023-05-09 13:07:32
4859
原创 Flink简介与Hadoop对比
Flink 是一个强大的流处理框架,具有高可靠性、高性能、高灵活性和易于使用的特点。它适用于需要处理实时数据流和有状态计算的场景,如实时分析、实时决策、实时监控等。
2023-05-09 13:02:08
1053
原创 Hadoop生态(6):Sqoop
其中,--connect参数指定数据库连接信息,--username参数指定数据库用户名,--password参数指定数据库密码,--table参数指定要导入的表名,--m参数指定并行度,--target-dir参数指定导入数据的目录。其中,--connect参数指定数据库连接信息,--username参数指定数据库用户名,--password参数指定数据库密码,--table参数指定要导出的表名,--export-dir参数指定要导出的数据目录。
2023-05-08 22:44:35
753
原创 Hadoop生态(2):Zookeeper
每个线程会在Zookeeper上创建一个临时顺序节点,然后获取当前节点列表,如果当前线程创建的节点是列表中序号最小的节点,就表示当前线程获得了锁,否则就需要等待前一个节点的删除事件。在锁的释放中,只需要关闭Zookeeper连接即可。Zookeeper的核心组件是一个分布式的文件系统,它提供了类似于标准文件系统的目录和文件的概念,但是这些目录和文件存储在一个分布式环境中。Zookeeper是一个开源的分布式协调服务,用于管理和协调分布式系统中的配置信息、命名服务、分布式锁、集群管理等任务。
2023-05-05 23:57:19
114
原创 Hadoop生态(1):HDFS
HDFS(Hadoop Distributed File System)是Apache Hadoop生态系统中的一个分布式文件系统,它能够存储大规模数据并提供高可靠性、高性能的数据访问服务。本篇博客将从以下几个方面来介绍HDFS:概述、架构、数据处理、容错性和应用场景。
2023-05-04 21:10:15
152
原创 物流管理系统
程序设计,实现物流管理的基本功能这是主页面,进入后还会有很多二级页面主要涉及到图,链表等结构把所有的文件放在一起既可以运行有迪杰斯特拉算法使用和深度优先遍历等等里面的city.txt文件,employee.txt文件,order_from.txt,route.txt,工人.txt文件自己手动创建!都需要 自己手动创建,不然会提示你找不到文件主文件#define _CRT_SECURE_NO_WARNINGS //多次排查后发现必须放在第一行,不然没有用#inclu..
2021-12-26 14:14:01
1060
原创 c++二叉树树的基本功能实现
通过在类中创建公有函数及私有函数,让公有函数调用私有函数(公有函数的用处在于给私有函数传参,调用私有函数,而公有函数调用无惨),以实现用户调用不需要参数的方便.代码如下#include <iostream>#include <fstream>using namespace std;template <class T> struct BinTreeNode { // 二叉树结点类定义 T data; // 数据域 BinTreeNo
2021-10-22 00:13:23
251
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人