
大数据技术栈
文章平均质量分 63
大数据KTV
王旭亮_
欢迎来到大数据技术人的浪漫圣地,不要让工作成为生活的全部,你也可以有诗和远方!
展开
-
【Hudi-SQL DDL创建表语法】
•以SQL方式创建一个hudi表的外表,与spark-shell or deltastreamer方式创建的hudi外表相同。Hudi当前不支持使用char、varchar、tinyint、smallint类型,建议使用string或int类型。CREATE TABLE命令通过指定带有表属性的字段列表来创建Hudi Table。表2 CREATE TABLE Options描述。•创建非分区表-- 创建一个cow内部表。表1 CREATE TABLE参数描述。– 创建一个mor外部表。原创 2025-03-04 16:24:51 · 455 阅读 · 0 评论 -
【神通数据库-执行查询计划统计模式下的表数据量】
可以在数据库命令行直接执行 输出到控制台,也可以将查询计划封装成SQL文件 在神通数据库节点执行即可。exec PUBLIC.p_count('模式名);修改需要查询的SCHEMA。原创 2025-03-04 16:14:49 · 264 阅读 · 0 评论 -
【ClickHouse 特性及应用场景】
传统数据库在数据大小比较小,索引大小适合内存,数据缓存命中率足够高的情形下能正常提供服务。但残酷的是,这种理想情形最终会随着业务的增长走到尽头,查询会变得越来越慢。你可能通过增加更多的内存,订购更快的磁盘等等来解决问题(纵向扩展),但这只是拖延解决本质问题。如果你的需求是解决怎样快速查询出结果,那么ClickHouse也许可以解决你的问题。4.读取数据时,会从数据库中提取出大量的行,但只用到一小部分列。1.不支持真正的删除/更新支持 不支持事务(期待后续版本支持)7.对于简单查询,允许大约50毫秒的延迟。原创 2025-02-18 11:45:51 · 342 阅读 · 0 评论 -
【国产自研-神软大数据平台3.4.10版本】
神软大数据平台是数据全生命周期一站式数据治理开发平台,提供数据采集、数据集成、数据开发、数据治理、数据服务、解决方案等功能, 支持大数据存储、大数据计算分析引擎等数据底座,充分发挥数据价值作用,聚焦企业数字化转型,提升组织的信息化水平和高效应用决策。1、可以兼容并适配各种服务器(X86\ARM)、操作系统包括Centos、麒麟V10SP3、欧拉(openEuler)等等。2、兼容各种大数据平台(CDH、华为MRS),提高数据的治理分析能力,可自定义根据不同业务场景来进行使用。原创 2025-02-18 11:16:57 · 195 阅读 · 0 评论 -
【Hue导入Hive文件类型数据(自动建表)】
4、点击提交,表和数据已导入,完成!(大批量的文件数据不建议用Hue,用load或者spark导入)1、进入Hue访问界面,点击要导入表的schema,点击+号,上传要导入的文件。3、点击下一步,可自定义表名,以及选择字段数据类型,定义文件的类型格式。2、本次测试文件数据用逗号分隔,也可根据文件分隔符选择具体格式。原创 2024-09-14 10:07:11 · 685 阅读 · 0 评论 -
【浅谈国产化大数据软件及发展趋势】
当下的祖国各方面都在不断成长,有些领域在国际中也占据着重要地位,各个企业如今都在大力的支持国产化的软件,当然国产化的软件就像一个刚成长的孩子,需要给予鼓励和支持,而不是打压。如今企业中不乏有些个别声音在说,国产化软件和国外软件存在差距,这确实是存在的,我们也要正视差距,缩小差距,勇于赶超。通过实际应用不断优化软件功能,提高用户体验,增强软件的市场竞争力。(4)政策支持:随着国家对信息技术自主可控的重视,国产化软件得到了政策的大力支持,这为国产大数据软件的发展提供了良好的政策环境和发展机遇。原创 2024-09-10 11:04:21 · 1032 阅读 · 0 评论 -
【神软大数据治理平台-高级动态SQL(接口开发)】
神软大数据治理平台-高级动态SQL(接口开发)原创 2024-08-05 14:50:54 · 601 阅读 · 0 评论 -
【Kettle数据采集的优化】
Kettle数据采集优化原创 2024-07-26 10:23:25 · 981 阅读 · 0 评论 -
【Kettle实现神通(数据库)MPP增量、全量数据ETL,同步任务Linux运行(通用)】
具体Kettle操作步骤不做过多介绍,主要技术方案说明,Kettle8.2版本放在底部链接提取,本次采用Kettle实现源端:神通数据通用库、目标端:神通MPP增量数据同步,并在服务器端运行Job。原创 2024-07-25 16:07:57 · 889 阅读 · 0 评论 -
【互联网金融湖仓一体建设实践】
MC 数仓对外表的计算效率虽然低于内表,但是湖到仓的数据抽取只需要执行一次,后续仓内计算效率是Hive 的5倍以上,仓内建模加工效率也是Spark的2倍左右。认证信息、HDFS 读写服务,可以读取 HMS 的 Hive 表元数据,将。1) 用户的数据湖不能满足数仓的多租户、安全隔离、Serverless、2)创建OSS和VPC中的Hadoop实例的外部服务对象,将数据。将OSS目录数据识别为表的结构,MC可以读取DLF探查的OSS元。不冗余存储DLF或HMS的元数据,不冗余存储OSS或HDFS的数。原创 2024-07-11 10:42:34 · 741 阅读 · 0 评论 -
【Hive的架构组成】
【Hive的架构组成】原创 2024-07-11 10:23:00 · 310 阅读 · 0 评论 -
【ROMA核心特性数据、服务、消息、设备集成及统一运维】
FDI旨在解决多种数据源的快速灵活集成能力,您可以在任意时间、任意地点、任意系统之间实现实时数据订阅和定时增量数据迁移。(1)数据集成任务的生命周期管理(2)FDI支持修改数据集成任务的信息、查看数据集成任务的运行报告、查看数据集成任务的运行日志、查看数据集成任务状态,完成数据集成任务的生命周期管理功能。(1)灵活的数据读写支持 MySQL、文本文件、消息、API等多种数据的分片读取和写入。原创 2024-05-06 17:06:39 · 1360 阅读 · 0 评论 -
【Spark性能调优-配置进程参数】
(2) 将“spark-defaults.conf”中的“spark.executor.memory”配置项或者“spark-env.sh”中的“SPARK_EXECUTOR_MEMORY”配置项设置为合适大小。(2) 将“spark-defaults.conf”中的“spark.executor.cores”配置项或者“spark-env.sh”中的“SPARK_EXECUTOR_CORES”配置项设置为合适大小。(1) Driver负责任务的调度,和Executor、AM之间的消息通信。原创 2024-04-09 17:48:04 · 615 阅读 · 0 评论 -
【Flink技术原理构造及特性】
Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。Flink最适合的应用场景是低时延的数据处理(Data Processing)场景:高并发pipeline处理数据,时延毫秒级,且兼具可靠性。转载 2024-04-01 11:26:09 · 1140 阅读 · 0 评论 -
神舟通用-神通MPP
政府、军队、军工、金融(银行、保险、证券)、电信、航天、邮政、能源(电力、煤炭、石油、天然气)、互联网、交通运输、制造业、教育、医疗医药、农林水利、环保、烟草、物流、税务、审计、原材料、城建、文化、旅游、服务业、材料、化工、矿产等面向海量数据联机分析业务提供数据仓库支持。采用行列混合压缩存储引擎,通过压缩机制降低系统存储采购成本,提供多级的压缩机制,加载后数据不膨胀,压缩状态下查询性能不下降,为系统节省存储空间。具有行式存储引擎、列式存储引擎、行列混合存储引擎,可根据不同业务场景选择适应的存储方式。原创 2024-03-13 11:11:05 · 600 阅读 · 0 评论 -
Flink应用场景
Apache Flink 功能强大,支持开发和运行多种不同种类的应用程序。它的主要特性包括:批流一体化、精密的状态管理、事件时间支持以及精确一次的状态一致性保障等。Flink 不仅可以运行在包括 YARN、 Mesos、Kubernetes 在内的多种资源管理框架上,还支持在裸机集群上独立部署。(2)在启用高可用选项的情况下,它不存在单点失效问题。事实证明,Flink 已经可以扩展到数千核心,其状态可以达到 TB 级别,且仍能保持高吞吐、低延迟的特性。原创 2024-02-27 11:34:03 · 1059 阅读 · 0 评论 -
华为大数据平台-FusionInsight MRS
关于华为的大数据平台,MRS是集成一些开源的大数据组件,有自己的运维和安全管理系统Manager,中间也做了一些默认的集成,比如Hudi和Hive的同步数据等等。原创 2024-02-27 11:08:04 · 3732 阅读 · 0 评论 -
帆软FineBI连接外置数据库进行报表开发
1、登录FlineBI系统,系统管理-常规-外接数据库,修改成想用得外置数据库。2、输入数据用户名、密码、IP、启用新数据库。3、FineBI默认上传JDBC驱动Jar包是不能直接上传的,可以在外置数据库将fine_conf_entity中的SystemConfig.driverUpload修改成true,没有这个字段可手动添加,然后重启即可。4、数据连接-数据连接管理 ,上传需要连接数据库的JDBC驱动。5、数据连接管理-新建数据连接,选择其他-其他JDBC,驱动选择自定义,直接填写URL选择原创 2024-01-23 09:50:30 · 3223 阅读 · 0 评论 -
Hudi SQL语法
通过MERGE INTO命令,根据一张表或子查询的连接条件对另外一张表进行查询,连接条件匹配上的进行UPDATE或DELETE,无法匹配的执行INSERT。1、trict模式,Insert 语句将保留 COW 表的主键唯一性约束,不允许重复记录。如果在插入过程中已经存在记录,则会为 COW 表抛出异常,对于MOR表,该模式与upsert模式行为一致。Hudi对于设置了主键的表支持三种Insert模式,默认为upsert。3.当前仅支持对COW表进行更新时,目标表的字段出现在更新表达式的右值。原创 2024-01-03 15:41:28 · 1609 阅读 · 0 评论 -
ClickHouse表引擎
当合并SummingMergeTree表的数据片段时,ClickHouse会把所有具有相同主键的行合并为一行,该行包含了被合并的行中具有数值数据类型的列的汇总值。在写入数据时,该系列引擎表会按照分区键将数据分成不同的文件夹,文件夹内每列数据为不同的独立文件,以及创建数据的序列化索引排序记录文件。该结构使得数据读取时能够减少数据检索时的数据量,极大的提高查询效率。后台执行合并操作时才会进行数据的预先聚合,而合并操作的执行时机无法预测,所以可能存在部分数据已经被预先聚合、部分数据尚未被聚合的情况。原创 2024-01-03 14:25:43 · 1021 阅读 · 0 评论 -
国产化自研-全栈式大数据治理平台
欢迎各领域合作,共建数字化企业!!原创 2023-12-27 15:33:30 · 568 阅读 · 0 评论