- 博客(59)
- 收藏
- 关注

原创 【国产自研-神软大数据平台3.4.10版本】
神软大数据平台是数据全生命周期一站式数据治理开发平台,提供数据采集、数据集成、数据开发、数据治理、数据服务、解决方案等功能, 支持大数据存储、大数据计算分析引擎等数据底座,充分发挥数据价值作用,聚焦企业数字化转型,提升组织的信息化水平和高效应用决策。1、可以兼容并适配各种服务器(X86\ARM)、操作系统包括Centos、麒麟V10SP3、欧拉(openEuler)等等。2、兼容各种大数据平台(CDH、华为MRS),提高数据的治理分析能力,可自定义根据不同业务场景来进行使用。
2025-02-18 11:16:57
186
原创 【Hudi-SQL DDL创建表语法】
•以SQL方式创建一个hudi表的外表,与spark-shell or deltastreamer方式创建的hudi外表相同。Hudi当前不支持使用char、varchar、tinyint、smallint类型,建议使用string或int类型。CREATE TABLE命令通过指定带有表属性的字段列表来创建Hudi Table。表2 CREATE TABLE Options描述。•创建非分区表-- 创建一个cow内部表。表1 CREATE TABLE参数描述。– 创建一个mor外部表。
2025-03-04 16:24:51
385
原创 【神通数据库-执行查询计划统计模式下的表数据量】
可以在数据库命令行直接执行 输出到控制台,也可以将查询计划封装成SQL文件 在神通数据库节点执行即可。exec PUBLIC.p_count('模式名);修改需要查询的SCHEMA。
2025-03-04 16:14:49
246
原创 【ClickHouse 特性及应用场景】
传统数据库在数据大小比较小,索引大小适合内存,数据缓存命中率足够高的情形下能正常提供服务。但残酷的是,这种理想情形最终会随着业务的增长走到尽头,查询会变得越来越慢。你可能通过增加更多的内存,订购更快的磁盘等等来解决问题(纵向扩展),但这只是拖延解决本质问题。如果你的需求是解决怎样快速查询出结果,那么ClickHouse也许可以解决你的问题。4.读取数据时,会从数据库中提取出大量的行,但只用到一小部分列。1.不支持真正的删除/更新支持 不支持事务(期待后续版本支持)7.对于简单查询,允许大约50毫秒的延迟。
2025-02-18 11:45:51
330
原创 【施一公:清华70%的高考状元都去哪了?】
就业是一个经济问题,中国经济达到一定程度就会提供多少就业,跟大学没有直接关系。大学,尤其是研究型大学,就是培养人才的地方,让学生进去后就想就业,会造成什么结果?我们到底缺什么?
2024-11-07 08:54:22
512
原创 【数据治理-设计数据标准】
针对这些重要的业务数据,建立让业务方、技术方、管理方都能认同的数据标准,统一业务数据的定义、结构、格式等方面,从而实现企业范围内的数据产生、使用、分析、共享的无障碍流通。指标就是用基于对业务进行分析的需求而制定的用某一个统一的标准去衡量业务状况的数值指示器,业务指标的数据变化情况会直接反映某一项业务的运营变化情况,指标用户(一般是管理者和业务分析者)会根据所反映出来的变化情况,及时的对现实业务做出调整。(1)根据定义数据标准的对象不同,数据标准可以分为面向业务数据的数据标准和面向分析数据的数据标准。
2024-09-29 10:55:20
567
原创 【数据治理-构建数据标准体系】
根据业务架构、数据架构的设计结果,对现有业务领域工作流程、信息化系统、数据现状进行综合调研和评估,确定数据标准的覆盖范围、必要性和紧迫程度。综合数据架构设计和既有系统已有的数据,根据业务数据标准模板的要求和指引,从业务、技术、管理三个视角明确业务对象的业务术语标准、属性标准和代码集标准。(1)数据标准的规划首先是在公司业务架构和数据架构的范围内,对公司业务和数据进行调研、分析和盘点,结合实际的数据标准需求,明确数据标准的范围,再根据实际情况的不同,逐步推进数据标准体系的各项工作。
2024-09-29 10:47:52
1321
原创 【Hue导入Hive文件类型数据(自动建表)】
4、点击提交,表和数据已导入,完成!(大批量的文件数据不建议用Hue,用load或者spark导入)1、进入Hue访问界面,点击要导入表的schema,点击+号,上传要导入的文件。3、点击下一步,可自定义表名,以及选择字段数据类型,定义文件的类型格式。2、本次测试文件数据用逗号分隔,也可根据文件分隔符选择具体格式。
2024-09-14 10:07:11
672
原创 【浅谈国产化大数据软件及发展趋势】
当下的祖国各方面都在不断成长,有些领域在国际中也占据着重要地位,各个企业如今都在大力的支持国产化的软件,当然国产化的软件就像一个刚成长的孩子,需要给予鼓励和支持,而不是打压。如今企业中不乏有些个别声音在说,国产化软件和国外软件存在差距,这确实是存在的,我们也要正视差距,缩小差距,勇于赶超。通过实际应用不断优化软件功能,提高用户体验,增强软件的市场竞争力。(4)政策支持:随着国家对信息技术自主可控的重视,国产化软件得到了政策的大力支持,这为国产大数据软件的发展提供了良好的政策环境和发展机遇。
2024-09-10 11:04:21
1022
原创 【Linux文件全局替换命令(详解)】
(2)将原文件中的|a|替换为逗号:vim打开文件,shift+:,输入。,全局查找|a|进行替换,/ / / 前面为查找内容,后边替换内容。:不编辑,直接在shell命令端进行替换。
2024-09-10 10:35:43
1423
原创 【愿你我都拥有热气腾腾的灵魂】
防线的尽头是什么呢?对,真正的尽头是沉默,常常我们小时候觉得开心就好,现在也是。在成长的道路上,有人理解是我之幸,无人理解淡定独行。不顺心的日子总会过去,请相信,如果事与愿违,那一定是另有安排。所有的失去都会以另一种方式归来,用十分的努力,打败每一个糟糕的日子。成年人的世界里,难过归难过,生活归生活,关关难过关关过,事事难熬事事熬,挺过去就会拨云见日,豁然开朗。
2024-08-05 15:17:34
187
原创 【Windows和Linux校验文件MD5值(详细)】
文件的MD5校验是一种常用的文件完整性验证方法。MD5(Message Digest Algorithm 5)是一种广泛应用的哈希算法,它能够将任意长度的数据转换为固定长度的哈希值。在文件校验中,MD5算法通过计算文件的哈希值,将文件内容转化为唯一的128位(16字节)哈希值。这个哈希值可以用来验证文件的完整性,即判断文件是否被篡改或损坏。
2024-07-26 17:24:27
3234
原创 【Kettle实现神通(数据库)MPP增量、全量数据ETL,同步任务Linux运行(通用)】
具体Kettle操作步骤不做过多介绍,主要技术方案说明,Kettle8.2版本放在底部链接提取,本次采用Kettle实现源端:神通数据通用库、目标端:神通MPP增量数据同步,并在服务器端运行Job。
2024-07-25 16:07:57
871
1
原创 【互联网金融湖仓一体建设实践】
MC 数仓对外表的计算效率虽然低于内表,但是湖到仓的数据抽取只需要执行一次,后续仓内计算效率是Hive 的5倍以上,仓内建模加工效率也是Spark的2倍左右。认证信息、HDFS 读写服务,可以读取 HMS 的 Hive 表元数据,将。1) 用户的数据湖不能满足数仓的多租户、安全隔离、Serverless、2)创建OSS和VPC中的Hadoop实例的外部服务对象,将数据。将OSS目录数据识别为表的结构,MC可以读取DLF探查的OSS元。不冗余存储DLF或HMS的元数据,不冗余存储OSS或HDFS的数。
2024-07-11 10:42:34
737
原创 【ROMA核心特性数据、服务、消息、设备集成及统一运维】
FDI旨在解决多种数据源的快速灵活集成能力,您可以在任意时间、任意地点、任意系统之间实现实时数据订阅和定时增量数据迁移。(1)数据集成任务的生命周期管理(2)FDI支持修改数据集成任务的信息、查看数据集成任务的运行报告、查看数据集成任务的运行日志、查看数据集成任务状态,完成数据集成任务的生命周期管理功能。(1)灵活的数据读写支持 MySQL、文本文件、消息、API等多种数据的分片读取和写入。
2024-05-06 17:06:39
1342
原创 【ROMA解决方案和功能架构】
1、基于ROMA融合集成平台,实现企业应用、数据、API 、OT设备、云服务、合作伙伴应用之间的集成连接。2、ROMA主要包含四个组件:数据集成(Fast Data Integration,简称FDI)、服务集成(API Connect,简称APIC)、消息集成(Message Queue Service,简称MQS)、设备集成(LINK)。
2024-04-23 10:33:25
2065
1
原创 【Spark性能调优-配置进程参数】
(2) 将“spark-defaults.conf”中的“spark.executor.memory”配置项或者“spark-env.sh”中的“SPARK_EXECUTOR_MEMORY”配置项设置为合适大小。(2) 将“spark-defaults.conf”中的“spark.executor.cores”配置项或者“spark-env.sh”中的“SPARK_EXECUTOR_CORES”配置项设置为合适大小。(1) Driver负责任务的调度,和Executor、AM之间的消息通信。
2024-04-09 17:48:04
609
原创 20240401寄语
生活不简单,尽量简单过。时间就是一颗药,你掌握好了它便是解药,你肆意挥霍它,便是毒药。不喧,不吵,静静地守着岁月。不怨,不悔,淡淡地对待自己。别紧张,深呼吸,坚持住,扛过去!
2024-04-01 11:40:42
185
转载 【Flink技术原理构造及特性】
Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。Flink最适合的应用场景是低时延的数据处理(Data Processing)场景:高并发pipeline处理数据,时延毫秒级,且兼具可靠性。
2024-04-01 11:26:09
1136
原创 神舟通用-神通MPP
政府、军队、军工、金融(银行、保险、证券)、电信、航天、邮政、能源(电力、煤炭、石油、天然气)、互联网、交通运输、制造业、教育、医疗医药、农林水利、环保、烟草、物流、税务、审计、原材料、城建、文化、旅游、服务业、材料、化工、矿产等面向海量数据联机分析业务提供数据仓库支持。采用行列混合压缩存储引擎,通过压缩机制降低系统存储采购成本,提供多级的压缩机制,加载后数据不膨胀,压缩状态下查询性能不下降,为系统节省存储空间。具有行式存储引擎、列式存储引擎、行列混合存储引擎,可根据不同业务场景选择适应的存储方式。
2024-03-13 11:11:05
588
原创 银河麒麟V10SP3操作系统-网络时间配置
其中 dd 代表日期 HH 代表小时,MM 代表分钟,SS 代表秒数,均需两位表示。基于 UTC 时间来配置系统时间,需要以 root 用户运行以下命令修改,示例如下。系统默认时间配置基于 UTC,如果想基于本地时间来配置系统时间,需要以 root 用户运行以下命令修改。系统默认时间配置基于本地时间,如果想基于 UTC 时间来配置系统时间,需要以 root 用户运行以下命令修改。系统时间通常还保持一套世界统一时间(UTC),用于转换系统的不同时区,本地时间就是用户所在时区的真实时间。
2024-03-12 16:44:51
6640
1
原创 银河麒麟服务器操作系统V10SP3
银河麒麟服务器操作系统V10SP3是一款直接面向kernel根社区,基于openEuler社区构建强安全、高可靠的国产Linux操作系统。具备CPU架构同源支持、自主平台优化、云原生支持、可管理型、高可用性和内生本质安全六大特性优势。
2024-03-04 16:12:18
5574
原创 架构设计方法(4A架构)-技术架构
技术架构将实现从传统垂直、封闭式的IT架构转变为云化的开放架构,辅以运营、运维、安全三大支柱,打造云化的IT统一技术平台,以支撑数字化转型落地。
2024-03-04 12:44:58
1482
原创 架构设计方法(4A架构)-应用架构
1、应用服务应归集到不同的应用系统模块。应用系统模块基于业务对象进行识别,同时考虑团队因素,一般与服务全功能团队规模相匹配。2、应用服务是处理一个业务对象的业务活动的逻辑功能集合。应用服务的功能应独立且完整,应用服务应“可度量、可定价、有价值”。
2024-03-04 10:22:16
2833
原创 架构设计方法(4A架构)-信息架构
属性是用来描述所属业务对象的性质和特征。1、考虑技术约束和考量、应用要求、性能要求,支撑详细的数据需求和业务规则的实施,设计出的数据在IT系统中的具体存储结构。2、是面向计算机物理表示的具体实现模型,与具体的DBMS类型有关。
2024-03-01 13:50:29
1633
原创 架构设计方法(4A架构)-业务架构
依据企业架构标准组织The Open Group的定义,企业架构描述构成企业的要素和要素之间关系,以及用于管控架构设计和演进的原则和指引。1、价值流是一组端到端的活动集合,能够为外部客户或内部用户创造一个有价值的结果。2、有别于流程,主要描述企业为他的客户创造什么价值以及如何创造价值。1、业务能力定义是业务自身拥有或者从外部获取的特定能力,以实现某一特定目的和结果。2、业务能力的输出本质上是从不同维度对TOBE业务能力的构建设计,需要参考行业趋势和领先实践。
2024-02-28 10:18:16
12463
原创 Flink应用场景
Apache Flink 功能强大,支持开发和运行多种不同种类的应用程序。它的主要特性包括:批流一体化、精密的状态管理、事件时间支持以及精确一次的状态一致性保障等。Flink 不仅可以运行在包括 YARN、 Mesos、Kubernetes 在内的多种资源管理框架上,还支持在裸机集群上独立部署。(2)在启用高可用选项的情况下,它不存在单点失效问题。事实证明,Flink 已经可以扩展到数千核心,其状态可以达到 TB 级别,且仍能保持高吞吐、低延迟的特性。
2024-02-27 11:34:03
1056
原创 华为大数据平台-FusionInsight MRS
关于华为的大数据平台,MRS是集成一些开源的大数据组件,有自己的运维和安全管理系统Manager,中间也做了一些默认的集成,比如Hudi和Hive的同步数据等等。
2024-02-27 11:08:04
3611
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人