自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(224)
  • 资源 (1)
  • 收藏
  • 关注

原创 docker官方源无法使用的解决办法

docker官方源无法使用,更换国内的Docker源。https://download.docker.com/linux/centos/7/x86_64/stable/repodata/repomd.xml: [Errno 14] curl#7 - "Failed to connect to 2a03:2880:f10d:83:face:b00c:0:25de: Network is unreachable"Trying other mirror.

2024-06-19 09:00:00 7917 1

原创 容器之Docker Swarm

Docker Swarm 是 Docker 官方提供的 原生集群管理工具,用于管理和编排多个 Docker 容器,实现 容器的高可用、负载均衡、动态伸缩 等功能。Swarm 主要用于 分布式部署、弹性伸缩、服务发现,并且与 Docker 生态无缝集成,是轻量级的容器编排工具。

2025-03-21 05:00:00 909

原创 分布式的消息流平台之Pulsar

Apache Pulsar 是一个分布式的消息流平台,集成了**消息队列(MQ)和流处理(Stream Processing)**能力。Pulsar 不仅提供低延迟、高吞吐的消息传输能力,还支持基于 Pulsar Functions、Flink、Spark Streaming 的流式处理能力。

2025-03-19 07:47:39 756

原创 Informatica介绍

Informatica 是一个领先的数据集成和数据管理平台,提供 ETL(Extract, Transform, Load) 解决方案,同时涵盖 数据治理、主数据管理(MDM)、云数据集成、数据质量 等多个领域。它广泛用于 数据仓库、数据湖、数据分析、主数据管理、数据治理 等企业级应用场景。

2025-03-07 05:00:00 691

原创 湖仓一体之Lakehouse

Lakehouse(数据湖仓)是一种融合了数据湖(Data Lake)与数据仓库(Data Warehouse)优势的新型数据架构。它结合了数据湖的存储灵活性和数据仓库的管理能力、事务性和高性能查询,适用于现代数据分析与机器学习场景。

2025-03-06 05:15:00 536

原创 分布式查询服务之Kyuubi

Kyuubi 是一个高效的分布式数据查询服务,基于 Apache Spark 构建,旨在提升 Spark 的可扩展性、可靠性以及易用性。它为数据工程师和数据科学家提供了一个更加简化和统一的方式来访问 Spark 集群,同时支持 SQL 查询、JDBC、ODBC 接口等。Kyuubi 的目标是将 Spark 的 SQL 查询能力扩展为更加高效和灵活的查询引擎,尤其是在大规模分布式环境下。Kyuubi 的架构灵活,能够支持不同的查询引擎扩展,并且为企业级应用提供了更多的可定制性。

2025-02-28 05:15:00 777

原创 对象存储之Ceph

Ceph 是一个开源分布式存储系统,旨在提供高度可扩展、高度可用、容错、性能优异的存储解决方案。它结合了块存储、文件系统存储和对象存储的功能,且在设计上具有极高的可扩展性和灵活性。在 Ceph 中,对象存储(Ceph Object Storage)是一个非常重要的组件,它主要是通过 RADOS(可靠自动分布式对象存储)来实现的。Ceph 对象存储通常用于存储非结构化数据,比如大规模的图片、视频、备份等,它支持通过 RESTful API 提供对象存储服务。

2025-02-24 05:00:00 655

原创 AI之DeepSeek

DeepSeek 是一个开源的基于深度学习的搜索引擎,用于在大规模数据中进行高效的内容检索和相似度搜索。它利用深度学习技术,特别是嵌入(embedding)技术,以改进传统搜索引擎中基于关键词的匹配方式,能够对复杂的查询和内容进行更精确和智能的理解。DeepSeek 主要侧重于基于语义的搜索,通过将数据(例如文本、图像、音频等)转换为向量表示,来实现更为精准的相似度搜索。它的应用场景包括但不限于自然语言处理(NLP)、图像搜索、推荐系统等。

2025-02-20 05:00:00 850

原创 Spark之PySpark

PySpark 是 Apache Spark 的 Python API,它允许开发者使用 Python 编程语言进行大规模数据处理和分析。Apache Spark 是一个快速、通用、可扩展的大数据处理引擎,支持批处理、流处理、机器学习、图计算等多种数据处理模式。PySpark 使得 Python 开发者能够利用 Spark 强大的分布式计算能力,处理大数据集,并执行高效的并行计算。

2025-02-19 05:15:00 1092

原创 Flink之Watermark

Apache Flink 是一个分布式流处理框架,它非常擅长处理实时数据流。流处理中的一个关键挑战是事件时间的处理,因为在流式数据中,事件到达系统的顺序可能并不代表它们的实际发生时间。为了解决这一问题,Flink 引入了**Watermark(水印)**机制,用于处理乱序数据和保证事件时间的正确性。

2025-02-12 09:13:04 672

原创 容器之K3s

K3s 是一种轻量级的 Kubernetes 发行版,由 Rancher Labs 开发,旨在提供一个简化、高效的 Kubernetes 集群解决方案。K3s 是完全兼容 CNCF (Cloud Native Computing Foundation) 的 Kubernetes,但其设计更轻量,特别适合边缘计算、物联网 (IoT)、开发环境和资源受限的环境。

2025-01-13 05:00:00 925

原创 OLAP之Pinot

Apache Pinot 是一个实时分布式在线分析处理(OLAP)系统,专为低延迟、高吞吐量地查询大规模数据而设计。Pinot 适用于高并发、低延迟的分析场景,特别是在实时和批处理数据的查询中表现优异。广泛应用于实时用户仪表盘、监控系统、推荐引擎等领域。

2025-01-07 05:00:00 1468

原创 Flink之ForST DB

Flink 作为一款实时流处理框架,广泛应用于实时计算、事件驱动的应用场景。为了支持大规模状态存储和计算,Flink 的状态后端设计允许将状态存储在外部系统中。ForST DB 是一个针对 Flink 存算分离架构设计的高性能状态存储系统,旨在提升状态管理的可扩展性、性能和可靠性。

2024-12-23 05:00:00 1656

原创 开源搜索引擎之Elasticsearch

Elasticsearch 是一个分布式、开源的全文搜索和分析引擎,专为大数据环境中的快速搜索和数据分析而设计。它基于 Apache Lucene 构建,提供了强大的全文检索能力、实时数据处理和分布式存储,常与 Logstash 和 Kibana 一起组成 Elastic Stack(以前称为 ELK Stack)。

2024-12-03 05:00:00 500

原创 API网关之Flomesh Gateway

Flomesh Gateway 是一款企业级的云原生流量网关,旨在提供高性能、可扩展性强的服务通信与流量管理能力。它支持多协议、多平台的负载均衡、服务发现、安全控制、流量路由和 API 网关功能。Flomesh Gateway 专为现代分布式应用设计,适合 Kubernetes 和服务网格等云原生环境。

2024-11-26 05:00:00 594

原创 可视化平台之Kibana

Kibana 是一个开源的分析和可视化平台,专门用于与 Elasticsearch 结合,提供强大的数据探索、分析、可视化和监控功能。它是 Elastic Stack(原 ELK Stack)的一部分,主要用于日志数据、性能数据以及其他类型的时序数据的展示和分析。通过 Kibana,用户可以构建仪表板、查看日志、进行数据搜索、分析并生成可视化图表。它提供了直观的界面,使得数据分析过程更加简单,特别是在数据量非常大的情况下,能够高效地帮助用户快速洞察数据的意义。

2024-11-17 05:00:00 1396

原创 数据收集之Logstash

Logstash 是一个开源的数据收集、处理和转发管道工具,通常用于从不同来源收集、处理和传输日志数据。它是 Elastic Stack(以前称为 ELK Stack)的一部分,常与 Elasticsearch 和 Kibana 一起使用,用于实时分析和可视化日志数据。Logstash 支持多种输入、过滤、输出插件,并提供强大的数据处理功能,广泛应用于日志分析、数据集成和实时监控等场景。

2024-11-14 05:00:00 650

原创 图数据库之Dgraph

Dgraph 是一个开源的分布式图数据库,专注于高性能、高可扩展性的数据存储和查询。Dgraph 以强大的图数据模型为基础,特别适合社交网络、推荐系统和复杂关系查询等应用。Dgraph 使用 GraphQL 作为查询语言,简化了与其他应用的集成。

2024-11-12 05:00:00 953

原创 API网关之Gravitee

Gravitee是一款开源的API管理平台和网关,广泛应用于API的设计、部署、管理和保护。它支持构建、部署和维护API,并提供了丰富的功能用于API流量的控制、监控和安全保护。Gravitee的主要特点是其模块化和高度可配置的架构,使其能够灵活地满足不同企业的需求。

2024-11-08 05:00:00 1088

原创 配置管理之Consul

Consul 是 HashiCorp 推出的一款用于服务发现、配置管理、和服务网格的开源工具。Consul 通过分布式架构来实现自动化的服务发现和健康检查,并具备内置的服务网格功能,支持动态负载均衡、加密和 ACL 管理,广泛用于微服务架构、云原生应用和跨数据中心的集群管理。

2024-11-05 05:00:00 778

原创 云原生文件系统之JuiceFS

JuiceFS 是一个分布式文件系统,专门为云原生环境设计,支持大规模数据存储和处理,特别适用于处理对象存储和大数据应用。JuiceFS 将元数据和数据分离,元数据保存在数据库中,而文件数据则存储在对象存储中,提供 POSIX 兼容的文件系统接口。JuiceFS 的设计使其能够在性能、扩展性和成本之间取得平衡,为用户提供快速、灵活的数据存储解决方案。

2024-10-31 05:00:00 1171

原创 Nacos之安装部署

Nacos 的安装可以根据需求选择不同的方式,包括本地安装、Docker 安装和Kubernetes 部署。下面将介绍几种常见的安装方式。

2024-10-25 05:00:00 1843

原创 大规模图形计算框架之HAMA

Apache HAMA 是一个分布式的计算框架,专门设计用于大规模图形和网络计算,它的核心模型是 Bulk Synchronous Parallel (BSP) 模型,这个模型适用于图形计算、机器学习和科学计算等领域。HAMA 通过 BSP 模型处理大规模的矩阵操作和网络流分析,与 MapReduce 不同,它的计算模型更适合处理复杂依赖的并行计算任务。

2024-10-23 05:00:00 631

原创 配置管理之Nacos

Nacos 是阿里巴巴开源的动态服务发现、配置管理和服务管理平台,专为构建现代微服务架构设计。Nacos 是 “Dynamic Naming and Configuration Service” 的缩写,旨在简化微服务应用中的服务注册、配置管理和动态服务发现。它为服务提供了集中化的管理平台,帮助开发者更轻松地实现服务间的通信与配置管理。

2024-10-21 05:00:00 830

原创 图计算框架之Giraph

Apache Giraph 是一个大规模并行图处理框架,专门用于处理社交网络、推荐系统等图结构数据。它是一款基于 Bulk Synchronous Parallel (BSP) 模型的分布式图计算系统,最初设计为用于 Facebook 等社交媒体平台处理海量图数据的工具。Giraph 是在 Hadoop 的 MapReduce 之上进行优化并独立发展的,专门用于高效处理超大规模的图计算任务,如 PageRank、最短路径等。

2024-10-18 05:00:00 1541

原创 大数据查询引擎之Tez

Apache Tez 是一个用于大数据处理的分布式计算框架,旨在提高 Hadoop 的 MapReduce 计算引擎的效率和性能。它是一个面向 DAG(有向无环图)任务执行的框架,主要用于大规模数据处理场景中,特别是在 Apache Hadoop 生态系统中。Tez 的出现大大提高了 Hadoop 的计算效率,尤其是在复杂的批处理和交互式查询场景中,得到了广泛应用。

2024-10-17 05:00:00 1579 1

原创 DolphinScheduler 之时间参数

在 DolphinScheduler 中,调度时对时间参数的使用非常重要,尤其是当你在数据处理、ETL 任务或其他需要依赖时间范围的任务场景中。DolphinScheduler 允许通过多种方式灵活地配置时间参数,以适应不同的任务调度需求。以下是时间参数在 DolphinScheduler 调度中的常见使用方法:

2024-10-15 05:00:00 2540

原创 API网关之Hango

Hango 是基于云原生和服务网格技术的开源 API 网关,专为现代分布式系统设计,提供高效、安全、可扩展的流量管理解决方案。Hango 网关是基于 Envoy Proxy 构建的,能够处理复杂的微服务架构中流量控制、服务治理和安全需求。Hango 强调与 Kubernetes 等云原生生态系统的深度集成,支持灵活的架构和流量治理功能。

2024-10-11 05:00:00 1084

原创 MySQL 之权限与授权

MySQL 权限及授权系统用于控制数据库用户对数据库资源的访问和操作权限。它提供了一种细粒度的安全控制机制,确保只有被授权的用户才能执行特定的操作。MySQL 的权限控制体系非常灵活,支持多种权限类型及级别(数据库、表、列、存储过程等)。接下来,我将详细介绍 MySQL 的权限体系及其授权过程。

2024-10-09 05:00:00 1342

原创 DevOps之GitLab

GitLab 是一个基于 Git 的开源 DevOps 平台,提供版本控制、持续集成/持续交付(CI/CD)、项目管理等功能,旨在帮助开发团队协作和自动化软件开发流程。GitLab 可以自托管,也可以使用其云服务,适用于个人、小团队和大型企业。

2024-09-25 05:30:00 541

原创 Doris之使用优化

在使用 Doris(原名 Apache Doris 或 Palo)过程中,可以通过多种方式优化性能和资源利用效率。通过合理设计表结构、优化数据导入和查询、调整执行计划、内存管理、并行处理等多种策略,可以显著提高 Doris 的性能和资源利用效率。

2024-09-25 05:00:00 784

原创 图数据库之TigerGraph

TigerGraph 是一个高性能、企业级的分布式图数据库,专为实时大规模图分析而设计。它支持图形的复杂查询和分析,并能够处理数十亿个节点和边的关系数据,广泛应用于金融、医疗、社交网络、电信等行业中的复杂关联分析场景。以下是 TigerGraph 的详细介绍:

2024-09-24 05:00:00 1095

原创 Hive之任务优化

Hive 是一个基于 Hadoop 的数据仓库工具,提供了 SQL-like 的查询语言来分析存储在 HDFS(Hadoop Distributed File System)上的大规模数据集。为了提高查询性能,Hive 提供了多种优化方法,涵盖不同层次的改进,从 SQL 查询层到执行层。

2024-09-23 05:00:00 1165

原创 版本控制之Git

Git 是一种分布式版本控制系统,广泛应用于软件开发、项目管理和协作开发领域。它由Linus Torvalds 于 2005 年创建,最初是为 Linux 内核开发服务的。Git 具有高速、高效、可靠的版本控制功能,允许多个开发者在不同地点同时工作。

2024-09-20 05:30:00 668

原创 图数据库之HugeGraph

HugeGraph是一款高性能、多种图开源数据库,专门用于处理大规模图数据和关系型数据的存储、查询和设计。它支持多种图模型和查询语言,特别适合在社交网络、知识领域图谱、推荐系统、物联网等场景如下使用。HugeGraph 的目标是提供高效的图数据存储和快速的图浏览、查询能力。

2024-09-20 05:00:00 1218

原创 API网关之Fizz Gateway

Fizz Gateway 是一款轻量级、高性能的 API 网关,专门为服务间通信、流量控制、请求路由、鉴权与认证等需求而设计。它旨在为分布式系统和微服务架构提供高效的请求处理能力,帮助开发者构建和管理 API 服务。

2024-09-19 05:30:00 1308

原创 时间序列数据库之InfluxDB

InfluxDB 是一个开源的时间序列数据库,专为处理高写入负载、存储和分析大量时间序列数据而设计。时间序列数据通常用于监控系统性能、设备指标、物联网数据和金融交易等场景。InfluxDB 的优势在于其高效的写入性能和对时间序列查询的优化,是时序数据处理领域的领先解决方案。

2024-09-19 05:00:00 1573

原创 大数据之OneData

​OneData‌是‌阿里巴巴内部进行数据整合及管理的方法体系和工具,其核心目标是构建统一、规范且可共享的全域数据体系。通过这一体系,企业可以避免数据的冗余和重复建设,规避数据烟囱和不一致性问题,从而充分发挥在大数据海量、多样性方面的独特优势。OneData体系 是一种企业级数据治理和管理体系,旨在解决企业内数据孤岛、数据标准不一致、数据利用率低等问题。它通过统一的数据模型、标准化的数据管理流程,以及高度自动化的数据处理能力,帮助企业更好地管理和利用数据资源。

2024-09-18 05:45:00 1302

原创 列式存储之Kudu

Apache Kudu是一个开源的列式存储系统,特别设计用于处理大规模数据集的高效实时分析和批量处理。Kudu结合了传统的列式存储数据库和分区文件系统的优点,提供了的数据读取写入操作,同时能够支持快速的随机读写和批量扫描。Kudu 是专门为数据仓库、实时数据分析和流处理等应用场景打造的,能够有效地解决 HDFS(Hadoop 循环文件系统)和 HBase 这些方面的问题场景中的限制。

2024-09-18 05:15:00 1352

原创 MPP数据库之SelectDB

SelectDB 是一个高性能、云原生的 MPP(大规模并行处理)数据库,旨在为分析型数据处理场景提供快速、弹性和高效的解决方案。它专为处理大规模结构化和半结构化数据设计,常用于企业级业务分析、实时分析和决策支持。SelectDB 是在 Apache Doris 的基础上发展而来的,继承了其在列式存储、向量化执行引擎和多维分析等方面的技术优势,同时在云原生架构上进行了优化,增强了弹性扩展和资源管理功能。

2024-09-14 05:00:00 1534

maven-3.5.4

官网目前没有3.5.4版本的maven包了,但编译有些软件,新版本的maven会不兼容。 提供给需要的同学下载。

2024-08-30

深入分析Linux内核源码.pdf

网页版:http://oss.org.cn/kernel-book/index.htm

2010-08-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除