
大数据
文章平均质量分 85
慕沐.
这个作者很懒,什么都没留下…
展开
-
【大数据】ClickHouse常见的错误及解决方式
ClickHouse 是一款高性能的列式数据库,但在使用过程中难免会遇到一些错误。本文将介绍一些 ClickHouse 常见的错误及其解决方式,帮助您更好地使用 ClickHouse。原创 2025-02-28 22:55:17 · 1172 阅读 · 0 评论 -
【大数据】ClickHouse常见的表引擎及建表语法
ClickHouse 中最强大的表引擎当属 MergeTree (合并树)引擎及该系列(*MergeTree)中的其他引擎。接下来我们就仔细了解下MergeTree 及该系列的其他引擎的使用场景及建表语法。原创 2024-10-31 21:34:45 · 1144 阅读 · 0 评论 -
【大数据】StarRocks的四种数据模型
这边博客,我们主要来学习下StarRocks的四种数据模型:明细模型 (Duplicate Key Model)、聚合模型 (Aggregate Key Model)、更新模型 (Unique Key Model) 和主键模型 (Primary Key Model)。这四种数据模型能够支持多种数据分析场景,例如日志分析、数据汇总分析、实时分析等。原创 2024-05-30 20:13:59 · 2814 阅读 · 0 评论 -
【大数据】Linkis安装及使用各种引擎过程中常见的一些问题及解决方法
我们都知道Linis是连接多个计算存储引擎的中间间,我们可以提交执行SQL、Pyspark、HiveQL、Scala等脚本。Linis中有一个专门处理引擎的模块(Linkis/linkis-engineconn-plugins),我们安装Linis后,默认的引擎只有,但其支持的引擎很多,所以,如果我们想要用默认之外的其他引擎,需要自己安装引擎安装(1)在Linkis/linkis-engineconn-plugins下找到要安装的引擎,进行编译打包(2)打包成功后相应target下会有个out.zip原创 2022-03-27 20:56:39 · 4191 阅读 · 0 评论 -
【大数据】Linkis是什么呢
Linkis,一个打通了多个计算存储引擎如Spark、TiSpark、Hive、Python和HBase等,对外提供统一REST/WebSocket/JDBC接口,提交执行SQL、Pyspark、HiveQL、Scala等脚本的数据中间件。原创 2022-03-20 21:19:32 · 5460 阅读 · 0 评论 -
【大数据】Linkis前端管理台如何部署
上一篇文章部署了Linkis的后端,然而我们有些任务的管理及一些基础配置自然是需要一个管理台来管理,界面化也更便于操作,所以本篇博客来讲一下Linkis的前端管理台的部署。Linkis在1.0提供了单独的前端管理台功能,提供了展示Linis的全局历史、修改用户参数、管理ECM和微服务等功能,部署前端管理台前需要先将Linkis后端进行部署(Linkis如何安装部署,及一些常见问题)1、准备工作从linkis的release页面(点击这里进入下载页面)下载web安装包,apache-linkis-x.原创 2022-02-27 20:44:51 · 3050 阅读 · 0 评论 -
【大数据】Linkis如何安装部署,及一些常见问题
Linkis ,一个在上层应用程序和底层引擎之间的计算中间件。本篇博客主要介绍了Linkis的安装过程及安装遇到的一些问题。原创 2022-01-23 20:35:14 · 5563 阅读 · 5 评论 -
【大数据】ClickHouse是什么呢
一、ClickHouse是什么ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)说到列式数据库,一定会想到行式数据库,那我们就以行式数据库与列式数据库存储形式的对比来了解下列式数据库究竟是什么样的在行式数据库系统中,数据按如下顺序存储:rowidnamesex18343829382张三男23247832994李四男31943058349王五女N………在列式数据库系统中,数据按如下顺序存储:原创 2021-10-24 23:13:38 · 1011 阅读 · 0 评论 -
【大数据】如何将数据导入ClickHouse?
最近在研究如何提升InfluxDB+Grafana的查询速度,因为随着数据量的上涨,查询速度逐渐变慢,采用了连续查询,也没有得到明显的效果,其实单从数据量上,采用连续查询,按道理是可以得到很好的效果的,但鉴于我们的索引也是比较多大(经查资料,InfluxDB的series不超过100000,是不会影响InfluxDB的查询性能的,然后我看我们的series已经达到了300000以上),而这些索引又是必须的,所以一直也没有在这个的基础上得到更好的解决方案,所以想着换条路走走,那就是ClickHouse,当然.原创 2021-08-28 21:49:50 · 4629 阅读 · 2 评论 -
【大数据】InfluxDB的连续查询有什么作用呢
InfluxDB尽管每秒可以处理数十万的数据,但如果长时间存储大量数据,对于存储是很大的压力。那么我们既想数据保存得久一些或者永久保存,又想减轻存储的压力,该怎么办呢,这就要用到连续查询了,其实是用连续查询和保留策略(Retention Policy 简称RP)来一起实现一、保留策略1、保留策略是什么呢保留策略指的是InfluxDB保存数据的时间,InfluxDB会比较服务器本地的时间戳和请求数据里的时间戳,并删除比在RPs里面用DURATION设置的更老的数据一个数据库中可以有多个保留策略,但.原创 2021-08-15 22:46:52 · 948 阅读 · 1 评论 -
【大数据】SpringBatch究竟是什么呢,又有何作用呢
现在有许多应用程序都需要批量处理,比如:(1)自动,复杂地处理大量信息,无需用户交互即可最有效地进行处理(2)定期应用非常大的数据集重复处理复杂的业务规则(3)从内部和外部系统接收的信息的集成,需要格式化,验证和以事务方式进行处理,记录到系统中遇到上述场景,就可以考虑SpringBatch了一、Spring Batch是什么Spring Batch是一个轻量级,全面的批处理框架,旨在开发对企业系统日常运营至关重要的强大批处理应用程序,是Spring提供的一个数据处理框架,其处理过程如下二.原创 2021-08-08 23:38:56 · 4579 阅读 · 4 评论 -
【大数据】巧用Grafana,更好的监控数据
关于监控,Grafana是一个不错的选择,它是一个跨平台的开源的度量分析和可视化工具,可以通过将采集的数据查询然后可视化的展示,并及时通知,具有报警功能。一、认识Grafana1、展示的方式多种多样,有折线图、图表、柱状图等等2、Grafana支持的数据源:InfluxDB,OpenTSDB,Prometheus,Elasticsearch等。3、在同一图表中混合使用不同的数据源,可以基于每个查询指定数据源这次我们主要以InfluxDB作为数据源,来更好的了解Grafana的一些使用吧。二、.原创 2021-07-25 22:52:45 · 1853 阅读 · 1 评论 -
【大数据】InfluxDB的常用查询及常用函数
通过上篇博客,我们已经简单认识了InfluxDB了,其实在实际使用中,我们最常用的就是查询了,这篇博客就详细了解下InfluxDB的查询操作一、常用查询1、从单个measurement查询所有的field和tagSELECT * FROM measurement_name where tag='serverA'2、从单个measurement查询所有的fieldSELECT *::field FROM measurement_name3、从单个measurement查询特定的field和.原创 2021-07-11 21:54:25 · 15665 阅读 · 7 评论 -
【大数据】InfluxDB是什么呢,又该怎么用呢
说到数据库,我们常用且熟知的就是Mysql了,但现在随着大数据的席卷而来,时序数据库也应用而生了,那它究竟是什么呢,就让我们一起来了解下InfluxDB是什么呢(1)InfluxDB是一个用于存储和分析时间序列数据的开源数据库。简单说,Influxdb就是一个时序数据库。什么是时序数据库呢,简单说就是数据格式里包含Timestamp字段的数据,比如某一时间环境的温度,CPU的使用率等。(2)InfluxDB里存储的数据被称为时间序列数据,其包含一个数值,就像CPU的load值或是温度值类似的。时.原创 2021-07-11 20:49:36 · 3089 阅读 · 1 评论 -
【大数据】Flume源码分析之启动过程
要分析flume的源码,首先要从Flume的启动开始,然后再分析Flume的各个组件服务Source、Channel、Sink的源码,接下来我们就来看下Flume是如何启动的吧Flume的启动入口org.apache.flume.node.Application1、校验命令行Options options = new Options(); Option option = new Option("n", "name", true, "the name of this agent".原创 2021-06-20 14:26:16 · 922 阅读 · 0 评论 -
【大数据】Flume该如何安装使用呢
通过上一篇博客(【大数据】Flume是个什么呢),我们可以基本了解认识到Flume是什么了,以及它主要是干嘛用的,纸上谈兵终觉浅,那究竟Flume该如何安装使用呢?一、安装1、先安装jdk我安装的是jdk1.82、下载flume包下载地址http://flume.apache.org/download.html3、解压tar zxvf apache-flume-1.9.0-bin.tar.gz4、切到解压后的路径下,查看是否安装成功./bin/flume-ng version.原创 2021-04-18 21:38:53 · 221 阅读 · 0 评论 -
【大数据】Flume是个什么呢
一、Flume的简介Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。Apache Flume的使用不仅限于日志数据聚合。由于数据源是可定制的,因此Flume可用于传输大量事件数据,包括但不限于网络流量数据,社交媒体生成的数据,电子邮件消息以及几乎所有可能的数据源。它具有基于流数据流的简单灵活的体系结构。它具有可调整的可靠性机制以及许多故障转移和恢复机制,具有强大的功能和容错能力二、Flume的架构说到Flume的架构,先来了解下Flume的核心组件吧(1)Agen原创 2021-04-11 18:11:32 · 316 阅读 · 1 评论