
Bigdata
文章平均质量分 93
本专栏主要介绍 bigdata 相关的常见内容 和 核心技能
昕光xg
专注于容器K8S,AI,机器人生态
展开
-
clickhouse笔记05--快速部署3节点集群
clickhouse笔记05--快速部署3节点集群1 介绍2 方法步骤2.1 部署 zookeeper 集群2.2 拉起 clickhouse 集群2.3 测试集群3 注意事项4 说明1 介绍clickhouse笔记01–快速部署clickhouse 介绍了如何快速部署单节点clickhouse服务,本文基于该博文继续介绍如何快速部署3节点0副本的集群。2 方法步骤节点说明:节点 ipch01 192.168.2.31ch02 192.168.2.32ch03 192.16原创 2022-12-23 13:34:16 · 1788 阅读 · 0 评论 -
k8s笔记22--使用fluent-bit采集集群日志
k8s笔记22--使用fluent-bit采集集群日志1 介绍2 部署 & 测试2.1 获取安装 fluent-bit2.2 直接采集日志到 es 集群2.3 直接采集日志到 kafka 集群3 注意事项4 说明1 介绍k8s笔记11–基于fluentd-kafka-es的日志收集方案 介绍了使用 fluentd 采集 k8s 集群日志的方法,但 fluentd 使用 CPU & Memory 效率相对较低,因此考虑采用更加轻量级的 fluent-bit 采集集群日志。本文介绍 fluen原创 2022-08-21 18:10:12 · 3061 阅读 · 2 评论 -
clickhouse笔记04--快速理解分片和副本
clickhouse笔记04--快速理解分片和副本1 介绍2 副本&分片核心要点2.1 数据副本2.2 ReplicatedMergeTree 原理2.3 数据分片2.4 Distributed 原理解析3 注意事项4 说明1 介绍Clickhouse 性能如此强大是离不开其副本和分片功能的,毕竟单节点总有性能天花板的。Clickhouse 中集群是副本和分片的基础,其定义了多个节点的拓扑关系。从数据层面区分,假设ClickHouse的N个节点组成了一个集群,在集群的各个节点上,都有原创 2022-08-14 22:05:37 · 1577 阅读 · 0 评论 -
kafka笔记4--安装kafka ui
kafka笔记4--安装kafka ui1 介绍2 安装 & 测试2.1 docker 部署 kafka-ui2.2 测试3 注意事项4 说明1 介绍文章 Overview of UI Tools for Monitoring and Management of Apache Kafka Clusters 中介绍了8种常见的kafka UI工具,除此之外还有LogiKM 和 kafka-console-ui ,1 AKHQ 免费2 Kowl 部分收费3 Kafdrop 免费4 UI原创 2022-07-30 17:21:31 · 8939 阅读 · 3 评论 -
clickhouse笔记03-- Grafana 接入ClickHouse
clickhouse笔记03-- Grafana 接入ClickHouse1 介绍2 安装测试3 注意事项4 说明1 介绍Grafana具备强大的图表面板展示能力,使用Grafana后用户可以通过仪表板创建、探索和共享所有的数据。若需要通过Grafana搜索战士ClickHouse数据,需要先安装一个插件来连接ClickHouse,然后才能使用 ClickHouse 数据。本文主要介绍如何在ClickHouse 中安装插件并接入ClickHouse数据,并通过 grafana 来展示表中的数据原创 2022-07-23 19:10:01 · 3651 阅读 · 0 评论 -
elk笔记25--快速体验APM
elk笔记25--快速体验APM1 介绍2 安装测试2.1 安装 APM server2.2 python测试用例2.3 kibana APM 展示信息3 注意事项4 说明1 介绍Elastic APM是建立在Elastic Stack上的应用程序性能监控系统。它允许用户通过收集关于传入请求、数据库查询、缓存调用、外部HTTP请求等响应时间的详细性能信息,从而实时监控软件服务和应用程序。这使用户定位和修复性能问题变得非常容易。Elastic APM还会自动收集未处理的错误和异常,这些错误原创 2022-07-21 22:33:28 · 1333 阅读 · 0 评论 -
clickhouse笔记02--安装测试 clickvisual
clickhouse笔记02--安装测试 clickvisual介绍前置条件部署测试优缺点说明介绍clickvisual 是一个轻量级的开源日志查询、分析、报警的可视化平台,致力于提供一站式应用可靠性的可视化的解决方案。既可以独立部署使用,也可作为插件集成到第三方系统。目前是市面上唯一一款支持 ClickHouse 的类 Kibana 的业务日志查询平台。本文在 Ubuntu系统上部署 clickvisual, 并与 Kibana 做了简单的对比。clickvisual前置条件部署一原创 2022-07-18 21:36:40 · 2114 阅读 · 3 评论 -
clickhouse笔记01--快速部署clickhouse
clickhouse笔记01--快速部署clickhouse1 介绍2 部署测试2.1 准备配置2.2 启动服务2.3 测试3 注意事项4 说明1 介绍ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS),当前已经被很多大公司使用。Clickhouse 是一款真正的列式数据库管理系统,具备数据压缩、数据的磁盘存储、多核心并行处理多服务器分布式处理、支持SQL、向量引擎、实时的数据更新、索引、适合在线查询、支持近似计算、Adaptive Join Algor原创 2022-07-09 18:12:26 · 1129 阅读 · 0 评论 -
elk笔记24--用gohangout替代logstash消费日志
elk笔记24--用gohangout替代logstash消费日志介绍使用gohangout使用gohangout前后对比注意事项说明介绍gohangout 是 childe 大佬使用 golang 模仿的 Logstash 开源项目。用于消费 Kafka 数据,处理后写入 ES、Clickhouse 等。 相对于elk 中官方提供的 logstash, 其可以更加高效的利用 cpu 资源、降低内存,提高 IO 吞吐量。笔者最近使用 logstash 处理项目中多个 k8s 集群的日志,发原创 2022-05-26 21:09:49 · 3083 阅读 · 0 评论 -
kafka笔记3--快速部署KRaft版本的kafka3.1.1
kafka笔记3--快速部署KRaft版本的kafka3.1.11 介绍2 部署测试2.1 部署2.2 测试3 注意事项4 说明1 介绍Apache Kafka Raft 是一种共识协议,它的引入是为了消除 Kafka 对 ZooKeeper 的元数据管理的依赖,被社区称之为 Kafka Raft metadata mode,简称 KRaft 模式。本文基于最新的 3.1.1 版本快速部署一个测试版本的 kafka, 若需要部署老版本kafka 可以参考博文 kafka笔记1–基础介绍与集群原创 2022-05-14 15:45:55 · 4333 阅读 · 0 评论 -
elk笔记23--定期清理索引
elk笔记23--定期清理索引介绍方案&代码方案介绍代码测试注意事项说明介绍在生产环境中,如果日志量过大,就会导致集群持续产生很多索引,占用很多存储空间。因此需要定期清理索引,确保磁盘处于一个比较低的水位。本文使用mysql 存储索引基础信息,基于mysql 中所以保存的时间,定期清理超过指定时间 rollover 生成的索引。方案&代码方案介绍每次新建索引的时候将索引基础信息存放到mysql中,具体包括索引名称、别名、存放时间和ilp信息。每次清理索引的时候从db中查看基础索引原创 2021-11-07 11:19:29 · 1306 阅读 · 0 评论 -
elk笔记22.2--通过api快速创建索引
elk笔记22--elk笔记22--通过api快速创建索引v21 简介2 功能实现2.1 源码2.2 测试3 注意事项说明1 简介本文基于 elk笔记22–通过api快速创建索引 继续通过 api 快速创建索引。本节将追加一个db模块存储索引,并添加通过flask程序提供对外的api,后续会在此基础之上新增一个简单的UI界面,同时会追加一个索引定期删除功能。2 功能实现本文前置条件需要安装一套elk实例和mysql,具体安装方法可以参考笔者博文:elk笔记1–搭建elk集群elk笔记2–使用do原创 2021-08-31 08:19:41 · 290 阅读 · 0 评论 -
elk笔记22.1--通过api快速创建索引
elk笔记22--通过api快速创建索引1 简介2 功能实现2.1 源码2.2 测试3 注意事项4 说明1 简介elk 是一个被广泛使用的日志检索系统,每次有新日志接入的时候,都需要一系列操作创建索引和kibana 配置。如果在企业中每次手动创建就显得很低效了,因此本文将相关操作封装成一个简单的python api,每次只需要传入指定的参数就可以快速完成索引创建和kibana 配置了。2 功能实现本文前置条件需要安装一套elk实例,具体安装方法可以参考笔者博文:elk笔记1–搭建elk集群elk原创 2021-08-30 08:27:23 · 851 阅读 · 0 评论 -
minio笔记3--基于k8s搭建minio集群
minio笔记3--基于k8s搭建minio集群介绍安装单个节点安装 minio 集群注意事项说明介绍笔者在 minio笔记01–部署与测试minio 和 minio笔记02–基于swarm搭建minio集群 中介绍了minio 的集群搭建步骤和基础使用方法,本文继上述两篇文章介绍k8s下的minio搭建过程。其实很早就准备写一份基于k8s的集群搭建方式,但是由于各种原因耽搁很久了,最近再次发了些时间完成了k8s下的minio部署,将步骤分享在此处以供有需要的小伙伴们学习!后续也会在此处继续更新 k8原创 2021-08-17 23:44:40 · 5633 阅读 · 0 评论 -
elk笔记5.2--logstash使用
elk笔记5.2--logstash使用1 介绍2 使用案例2.1 通过type隔离多个索引2.2 通过pipeline隔离多个索引3 注意事项4 说明1 介绍logstash 资源充足的情况下,每个logstash示例采集|消费指定的日志,然后写入到特定索引中即可。logstash 不充足的情况下,可能需要在一个logstash 中处理多个日志,并写入到多个索引中。本文介绍两种处理方式,方式一为通过type字段处理多种日志,方法二为使用多个pipeline处理日志。2 使用案例2.1 通过typ原创 2021-07-20 23:44:44 · 249 阅读 · 2 评论 -
elk笔记21--将DSL查询转为kibana短链接
elk笔记21--将DSL查询转为kibana短链接1 简介2 功能实现2.1 源码2.2 测试3 注意事项4 说明1 简介较新版本的 kibana 前端都有一个 Share -> Short URL 的功能,用起来非常方便。因此想着能否将该功能用代码自动生成,将其集成到告警通知中,让用户收到告警通知的时候可以通过短链接快速定位到错误原因。查询文档发现官方提供 Shorten URL API 实现锻炼功能,该功能处于实验阶段,没有详细的参数介绍,因此需要自己结合kibana 的url 和查询的原创 2021-07-06 21:41:40 · 1328 阅读 · 0 评论 -
minio笔记02--基于swarm搭建minio集群
minio笔记2--基于swarm搭建minio集群1 介绍2 初始化swarm集群3 搭建minio集群4 说明1 介绍minio 有多种搭建方式,已经介绍了单机上搭建的测试集群,本文将进一步介绍如何基于swarm 搭建多机集群。2 初始化swarm集群初始化 master 节点master节点执行init,初始化集群# docker swarm init添加 worker节点:在work节点执行join,加入集群在每个work上依次执行该命令:# docker swarm join原创 2021-01-22 22:08:35 · 634 阅读 · 0 评论 -
minio笔记01--部署与测试minio
minio笔记01--部署与测试minio1 简介2 部署minio集群3 测试3.1 mc使用3.2 fuse使用4 补充说明1 简介MinIO 是一个基于Apache License v2.0开源协议的对象存储服务。它兼容亚马逊S3云存储服务接口,非常适合于存储大容量非结构化的数据,例如图片、视频、日志文件、备份数据和容器/虚拟机镜像等,而一个对象文件可以是任意大小,从几kb到最大5T不等。MinIO是一个非常轻量的服务,可以很简单的和其他应用的结合,类似 NodeJS, Redis 或者 MyS原创 2021-01-20 23:26:16 · 3063 阅读 · 0 评论 -
milvus笔记01--部署测试版本 milvus
milvus 笔记01--部署测试版本milvus1 milvus 简介2 milvus_cpu 部署3 常见命令3.1 api 案例3.2 RESTful api4 说明1 milvus 简介Milvus 是一款开源的向量相似度搜索引擎,支持针对 TB 级向量的增删改操作和近实时查询,具有高度灵活、稳定可靠以及高速查询等特点。Milvus 集成了 Faiss、NMSLIB、Annoy 等广泛应用的向量索引库,提供了一整套简单直观的 API,让你可以针对不同场景选择不同的索引类型。此外,Milvus 还原创 2020-12-09 21:01:16 · 3125 阅读 · 3 评论 -
elk笔记0--elk资料大全
elk笔记0--elk资料大全1 官方文档2 常见博文2.1 安装系列2.2 核心知识系列3 常见教程4 认证事宜4.1 官方资料4.2 备考资源5 说明本文记录elk相关的各种常见文档和资源,以便有需要的读者查阅和下载!同时,欢迎大家留言补充相关的优质资源,也期望和笔者互换优质视频资源,力争用最高效、实惠的方式尽快掌握 elk 相关核心技能!1 官方文档elastic 官网elastic 最新官方文档elastic 中文社区elastic github中文社区创始人Medcl github原创 2020-12-06 21:50:15 · 233 阅读 · 0 评论 -
elk笔记20--Analysis
elk笔记19--AnalysisAnalysis 简介Analysis 分类案例说明Analysis 简介Analysis 分类案例说明原创 2020-12-06 00:58:17 · 341 阅读 · 0 评论 -
elk笔记19--es python api
elk笔记19--es python api1 Elasticsearch1.1 基础连接、写入、查询2 Indices3 Ingest4 Cluster5 Nodes6 Cat7 Snapshot8 Tasks9 说明elasticsearch-py 是es官方提供的低级客户端。其目标是为所有es相关的python 代码提供共同基础;因此,其尝试自由发布观点,切具备很好的扩展性。es 官方也提供了一个高级的客户端库 elasticsearch-dsl ,其具有较多的限制范围,但是它是基于 elasti原创 2020-11-27 08:53:56 · 955 阅读 · 0 评论 -
elk笔记18--Secure a cluster
elk笔记18--Secure a clusteres secure 简介常见 secure 功能案例及注意事项说明es secure 简介OverviewConfiguring securityHow security works常见 secure 功能User authenticationConfiguring SAML single-sign-on on the Elastic StackConfiguring single sign-on to the Elastic Stack u原创 2020-11-22 17:05:38 · 384 阅读 · 0 评论 -
elk笔记13--Queries-full text queries
elk笔记13--Queries-full text queries1 full text 查询简介2 full text 查询类型2.1 intervals query2.2 match query2.3 match_bool_prefix query2.4 match_phrase query2.5 match_phrase_prefix query2.6 multi_match query2.7 common terms query2.8 query_string query2.9 simple_qu原创 2020-11-16 01:39:08 · 387 阅读 · 0 评论 -
elk笔记13--Queries-term-level queries
elk笔记13--Queries-term-level queries1 term-level 查询简介2 term-level 查询类型2.1 exists query2.2 fuzzy query2.3 ids query2.4 prefix query2.5 range query2.6 regexp query2.7 term query2.8 terms query2.9 terms_set query2.10 type query2.11 wildcard query3 说明1 term-le原创 2020-11-13 08:19:27 · 260 阅读 · 0 评论 -
elk笔记13--Queries-compound queries
elk笔记13--Queries-compound queries1 compound 查询简介2 compound 查询分类2.1 bool query2.2 boosting query2.3 constant_score query2.4 dis_max query2.5 function_score query3 说明1 compound 查询简介复合查询包裹着其它复合查询或叶子查询,它要么结合其它查询的结果和相关度分数,以改变它们的行为,要么从查询上下文切换到过滤上下文。该范畴内的查询包括原创 2020-10-10 21:41:15 · 333 阅读 · 0 评论 -
elk笔记13--Query DSL
elk笔记13--Queries3 bool+filter条件来搜索2 filter 执行原理剖析1 使用term+filter来搜索3 bool+filter条件来搜索es 中的must、should、must_not 和 与、或、非相对于,做条件搜索时候根据需要做对应限制即可;重新创建索引,并写入数据, 此时articleID为keyword类型PUT forum_article/{ "mappings": { "properties": { "articleI原创 2020-10-07 23:33:09 · 673 阅读 · 0 评论 -
elk笔记17--alias
elk笔记17--alias1 别名简介2 创建别名2.1 创建索引时候创建别名2.2 为已有索引添加别名3 查看索引4 删除别名4.1 直接删除别名4.2 使用actions删除别名5 说明1 别名简介索引别名API允许使用一个名字来作为一个索引的别名,API会自动将别名转换为实际的索引名称。 别名也可以映射到多个索引,别名不能与索引具有相同的名称。别名可以用来做索引迁移和多个索引的查询统一,还可以用来实现视图的功能。实际业务中,常创建rollover类型的索引,每次对索引rollover的时候就会原创 2020-10-05 17:05:17 · 525 阅读 · 0 评论 -
elk笔记16--aggs-Metrics Aggregations
elk笔记16--aggs-Metrics Aggregations1 Metrics Aggregations 简介2 Metrics Aggregations 分类2.1 Avg Aggregation2.2 Weighted Avg Aggregation2.3 Max Aggregation2.4 Min Aggregation2.5 Sum Aggregation2.6 Stats Aggregation2.7 Extended Stats Aggregation2.8 Cardinality A原创 2020-09-26 16:40:42 · 362 阅读 · 0 评论 -
elk笔记16--aggs-Bucket Aggregations
elk笔记16--aggs-Bucket Aggregations1 Bucketing 介绍2 Bucket Aggregations 分类2.1 Terms Aggregation2.2 Global aggregators2.3 Histogram Aggregation2.4 Date Histogram Aggregation2.5 Date Range Aggregation2.6 Range Aggregation待补充3 注意事项4 说明本文对聚合中的bucket类型聚合进行进一步介绍,包原创 2020-09-26 16:32:54 · 906 阅读 · 0 评论 -
elk笔记16--聚合分析
elk笔记15--聚合数据分析1 聚合基础概念2 常见聚合类型3 第二部分52 doc value 正排索引的聚合内部原理53 doc value 机制内核级别原理54 string field聚合实验以及fielddate原理初探55 fileddata内存控制以及circuit breaker断路器56 fielddata filter的细力度内存加载控制57 fielddata预加载机制以及序号标记预加载58 从深度优先到广度优先1 聚合基础概念2 常见聚合类型GET kibana_sample原创 2020-09-20 01:02:05 · 686 阅读 · 0 评论 -
elk 笔记15--mapping
文章目录elk 笔记6--mapping1 为何移除types2 xx3 xx4 xx5 说明elk 笔记6–mapping1 为何移除typestype 最初设计类似与sql的表名称,2 xx3 xx4 xx5 说明原创 2020-09-13 21:53:21 · 775 阅读 · 0 评论 -
elk笔记13--Queries-geo queries
elk笔记13--Queries-geo queries1 geo查询简介2 geo 查询案例3 说明1 geo查询简介geo queries(地理位置查询) 支持2类geo数据,分别为geo_point 和geo_shape 2中类型;其中, gep_points 支持 lat/lon 对, geo_shape 支持点、线、圆、多边形和多个多边形等;共对应四种查询,分别为 geo_bounding_box、geo_distance、geo_polygon 、geo_shape 。本文部分数据直接使用原创 2020-09-12 23:45:15 · 295 阅读 · 0 评论 -
elk笔记14--ik分词器
elk笔记14--ik分词器1 ik 分词器的安装2 ik 分词器基础知识3 ik 分词配置文件及自定义词库4 修改IK分词期源码来基于mysql热更新词库说明1 ik 分词器的安装2 ik 分词器基础知识包括两种analyzer: ik_max_word和ik_smart;ik_max_word: 分词较细,会将文本做最细粒度的拆分,尽可能穷举出所有的term ;ik_max_word: 分词比较智能,做最粗粒度的拆分,避免过多的拆分;两种分词器使用的最佳实践是:索引时用ik_max_word原创 2020-08-30 19:06:49 · 437 阅读 · 0 评论 -
elk笔记12--常见api和设置区别
elk笔记11--freeze和close区别elk笔记11--freeze和close区别elk笔记11–freeze和close区别https://www.elastic.co/guide/en/elasticsearch/reference/current/searching_a_frozen_index.htmlGET syslog001-2020.07.12-000002/_search?q=message:*&ignore_throttled=false是否可以设置索引属性,待原创 2020-08-16 00:11:01 · 582 阅读 · 0 评论 -
elk笔记11--快照的使用
elk笔记11--快照的使用1 快照介绍2 快照使用2.1 nfs 作为存储仓库2.2 hdfs 作为存储仓库3 使用技巧4 说明1 快照介绍快照是运行中es集群的一个备份,进行快照时候既可以全集群所有索引备份,也可以指定某些索引备份;快照存储在仓库中,因此使用快照前需要注册一个仓库;快照可以存储在本地仓库,也可以存储到远程仓库,如Amazon S3, HDFS, Microsoft Azure, Google Cloud Storage;快照中的数据是增量进行了,即当前快照里面某个index的数原创 2020-08-09 15:30:45 · 386 阅读 · 0 评论 -
es源码笔记1--es源码环境搭建
es源码笔记1--搭建源码调试环境1 简介2 搭建过程软件环境IDEA 配置调试输出3 说明1 简介2 搭建过程软件环境java version “1.8.0_201”IDEA 配置调试输出3 说明Elasticsearch 源码解析与优化实战.张超手把手教你用idea运行调试Elasticsearch源码...原创 2020-07-18 21:28:23 · 767 阅读 · 1 评论 -
elk笔记10--filebeat使用
elk笔记10--filebeat使用1 filebeat 介绍2 filebeat 使用案例2.1 软件安装2.2 采集数据到 kafka2.3 采集数据到 es3 使用技巧3.1 filebeat将日志按照类别发送到不同kafka3.2 filebeat将日志按照类别发送到不同es index4 说明1 filebeat 介绍Filebeat 是一个用于转发和集中化日志数据的轻量级工具,它一般作为agent安装在服务器上。它监控日志文件和文件夹,收集日志事件,并转发到logstash、ES或者Kaf原创 2020-07-12 15:32:52 · 573 阅读 · 0 评论 -
elk笔记9--跨集群搜索
elk笔记9--跨集群搜索1 跨集群搜索简介2 跨集群搜索配置3 跨集群使用案例4 说明1 跨集群搜索简介2 跨集群搜索配置直接通过api动态配置较方便,此处使用api配置,内容如下:PUT _cluster/settings{ "persistent": { "cluster": { "remote": { "es_one": { "skip_unavailable": true, "seeds": [原创 2020-07-02 00:58:37 · 446 阅读 · 0 评论 -
elk笔记8--index
elk 笔记8--index1. index 创建的几种方式直接创建index按照当前日期创建索引创建带有rollover功能的索引2. 索引的常见设置基本设置常见问题3. 说明1. index 创建的几种方式直接创建index第一种方式最普通,此类index 写入时在logstash中直接指定index01即可;其缺点是当日志量大的时候,会影响性能。PUT index01{}out:{ "acknowledged" : true, "shards_acknowledged" : t原创 2020-06-21 12:58:54 · 1939 阅读 · 1 评论