数据也是生产力，保持热爱，奔赴山海！

此地介绍和分享大数据专业ZS，包括企业级的大数据项目案例、数据治理架构+经验以及前沿大数据技术的应用。

原创【国产自研-神软大数据平台3.4.10版本】

神软大数据平台是数据全生命周期一站式数据治理开发平台，提供数据采集、数据集成、数据开发、数据治理、数据服务、解决方案等功能，支持大数据存储、大数据计算分析引擎等数据底座，充分发挥数据价值作用，聚焦企业数字化转型，提升组织的信息化水平和高效应用决策。1、可以兼容并适配各种服务器（X86\ARM）、操作系统包括Centos、麒麟V10SP3、欧拉（openEuler）等等。2、兼容各种大数据平台（CDH、华为MRS），提高数据的治理分析能力，可自定义根据不同业务场景来进行使用。

2025-02-18 11:16:57 265

原创【发展民族软件，建设航天强国】

发展民族软件，建设航天强国。

2024-07-25 17:12:49 403

原创【ROMA核心特性数据、服务、消息、设备集成及统一运维】

FDI旨在解决多种数据源的快速灵活集成能力，您可以在任意时间、任意地点、任意系统之间实现实时数据订阅和定时增量数据迁移。（1）数据集成任务的生命周期管理（2）FDI支持修改数据集成任务的信息、查看数据集成任务的运行报告、查看数据集成任务的运行日志、查看数据集成任务状态，完成数据集成任务的生命周期管理功能。（1）灵活的数据读写支持 MySQL、文本文件、消息、API等多种数据的分片读取和写入。

2024-05-06 17:06:39 1638

原创【SQL中Lag()和LEAD()的用法】

SQL窗口函数LAG和LEAD应用解析 LAG和LEAD是SQL中用于跨行取值的窗口函数，分别获取当前行之前（LAG）和之后（LEAD）的数据。两个函数语法相同，都需配合ORDER BY定义排序规则，可选PARTITION BY分组计算。典型应用场景包括：计算日环比（相邻行差值）、获取前后行数据、设定自定义偏移量（如前N行）。相比自连接方式，这两个函数能简化代码并提升性能，特别适合处理时间序列数据比较、相邻记录分析等需求。使用时需注意必须指定排序规则，合理设置默认值以避免NULL值问题。

2025-09-23 15:05:57 1164

原创【浅谈Spark和Flink区别及应用】

Flink和Spark是两大主流大数据计算框架，核心差异在于计算模型：Flink采用流优先架构，支持真正的实时处理（毫秒级延迟）和精准状态管理；Spark基于批处理模型，流处理采用微批方式（秒级延迟）。Flink适合实时计算和流批统一场景，Spark在批处理（如ETL、数据分析）和机器学习方面更具优势。Flink容错机制更轻量，Spark生态工具更成熟。选择取决于业务需求：实时处理选Flink，离线分析用Spark。

2025-09-23 14:56:44 713

原创【一切问题的答案都在路上！】

人生困惑的答案往往蕴含在行动中。与其在原地苦苦思索，不如迈开脚步去探索。每一次前行都会带来新的视角，每一段旅程都在塑造答案本身。真正重要的不是终点，而是行走过程中的体悟与成长。生命的意义不在于找到标准答案，而在于保持前进的勇气，在行动中发现属于自己的解答。正如那幅行走在路上的背影，暗示着：答案永远在下一个转角。

2025-07-03 11:47:20 108

原创【神软大数据开发平台-接口数据同步】

本文介绍了数据抽取工具的四大核心功能：1）提供HTTP算子界面化配置，便捷实现接口数据抽取；2）支持输出多种类型数据源，满足多样化需求；3）内置时间参数功能，灵活实现增量/全量数据抽取；4）支持参数化配置，可并行执行多个接口任务。这些特性有效提升了数据抽取的效率和灵活性，为数据处理工作提供了便利的解决方案。

2025-07-03 11:39:43 358

原创【Hudi-SQL DDL创建表语法】

•以SQL方式创建一个hudi表的外表，与spark-shell or deltastreamer方式创建的hudi外表相同。Hudi当前不支持使用char、varchar、tinyint、smallint类型，建议使用string或int类型。CREATE TABLE命令通过指定带有表属性的字段列表来创建Hudi Table。表2 CREATE TABLE Options描述。•创建非分区表-- 创建一个cow内部表。表1 CREATE TABLE参数描述。– 创建一个mor外部表。

2025-03-04 16:24:51 785

原创【神通数据库-执行查询计划统计模式下的表数据量】

可以在数据库命令行直接执行输出到控制台，也可以将查询计划封装成SQL文件在神通数据库节点执行即可。exec PUBLIC.p_count('模式名);修改需要查询的SCHEMA。

2025-03-04 16:14:49 460

原创【ClickHouse 特性及应用场景】

传统数据库在数据大小比较小，索引大小适合内存，数据缓存命中率足够高的情形下能正常提供服务。但残酷的是，这种理想情形最终会随着业务的增长走到尽头，查询会变得越来越慢。你可能通过增加更多的内存，订购更快的磁盘等等来解决问题（纵向扩展），但这只是拖延解决本质问题。如果你的需求是解决怎样快速查询出结果，那么ClickHouse也许可以解决你的问题。4.读取数据时，会从数据库中提取出大量的行，但只用到一小部分列。1.不支持真正的删除/更新支持不支持事务（期待后续版本支持）7.对于简单查询，允许大约50毫秒的延迟。

2025-02-18 11:45:51 687

原创【种完麦子，我就往南走，去西双版纳，过个冬天！】

一位60岁老奶奶：我想出去看看祖国的大好河山！

2024-11-07 18:04:46 457

原创【施一公：清华70%的高考状元都去哪了？】

就业是一个经济问题，中国经济达到一定程度就会提供多少就业，跟大学没有直接关系。大学，尤其是研究型大学，就是培养人才的地方，让学生进去后就想就业，会造成什么结果？我们到底缺什么？

2024-11-07 08:54:22 663 1

原创【数据治理-设计数据标准】

针对这些重要的业务数据，建立让业务方、技术方、管理方都能认同的数据标准，统一业务数据的定义、结构、格式等方面，从而实现企业范围内的数据产生、使用、分析、共享的无障碍流通。指标就是用基于对业务进行分析的需求而制定的用某一个统一的标准去衡量业务状况的数值指示器，业务指标的数据变化情况会直接反映某一项业务的运营变化情况，指标用户（一般是管理者和业务分析者）会根据所反映出来的变化情况，及时的对现实业务做出调整。（1）根据定义数据标准的对象不同，数据标准可以分为面向业务数据的数据标准和面向分析数据的数据标准。

2024-09-29 10:55:20 747

原创【数据治理-构建数据标准体系】

根据业务架构、数据架构的设计结果，对现有业务领域工作流程、信息化系统、数据现状进行综合调研和评估，确定数据标准的覆盖范围、必要性和紧迫程度。综合数据架构设计和既有系统已有的数据，根据业务数据标准模板的要求和指引，从业务、技术、管理三个视角明确业务对象的业务术语标准、属性标准和代码集标准。（1）数据标准的规划首先是在公司业务架构和数据架构的范围内，对公司业务和数据进行调研、分析和盘点，结合实际的数据标准需求，明确数据标准的范围，再根据实际情况的不同，逐步推进数据标准体系的各项工作。

2024-09-29 10:47:52 1817

原创【20240918寄语】

愿你保持善良，从此拥有诗和远方！

2024-09-18 10:24:52 464

原创【Hue导入Hive文件类型数据（自动建表）】

4、点击提交，表和数据已导入，完成！(大批量的文件数据不建议用Hue，用load或者spark导入)1、进入Hue访问界面，点击要导入表的schema，点击+号，上传要导入的文件。3、点击下一步，可自定义表名，以及选择字段数据类型，定义文件的类型格式。2、本次测试文件数据用逗号分隔，也可根据文件分隔符选择具体格式。

2024-09-14 10:07:11 846

原创【浅谈国产化大数据软件及发展趋势】

当下的祖国各方面都在不断成长，有些领域在国际中也占据着重要地位，各个企业如今都在大力的支持国产化的软件，当然国产化的软件就像一个刚成长的孩子，需要给予鼓励和支持，而不是打压。如今企业中不乏有些个别声音在说，国产化软件和国外软件存在差距，这确实是存在的，我们也要正视差距，缩小差距，勇于赶超。通过实际应用不断优化软件功能，提高用户体验，增强软件的市场竞争力。（4）政策支持：随着国家对信息技术自主可控的重视，国产化软件得到了政策的大力支持，这为国产大数据软件的发展提供了良好的政策环境和发展机遇。

2024-09-10 11:04:21 1215

原创【Linux文件全局替换命令（详解）】

（2）将原文件中的|a|替换为逗号：vim打开文件，shift+：，输入。，全局查找|a|进行替换，/ / / 前面为查找内容，后边替换内容。：不编辑，直接在shell命令端进行替换。

2024-09-10 10:35:43 1751

原创【愿你我都拥有热气腾腾的灵魂】

防线的尽头是什么呢？对，真正的尽头是沉默，常常我们小时候觉得开心就好，现在也是。在成长的道路上，有人理解是我之幸，无人理解淡定独行。不顺心的日子总会过去，请相信，如果事与愿违，那一定是另有安排。所有的失去都会以另一种方式归来，用十分的努力，打败每一个糟糕的日子。成年人的世界里，难过归难过，生活归生活，关关难过关关过，事事难熬事事熬，挺过去就会拨云见日，豁然开朗。

2024-08-05 15:17:34 232

原创【神软大数据治理平台-高级动态SQL（接口开发）】

神软大数据治理平台-高级动态SQL（接口开发）

2024-08-05 14:50:54 676

原创【Windows和Linux校验文件MD5值（详细）】

文件的MD5校验是一种常用的文件完整性验证方法。MD5（Message Digest Algorithm 5）是一种广泛应用的哈希算法，它能够将任意长度的数据转换为固定长度的哈希值。在文件校验中，MD5算法通过计算文件的哈希值，将文件内容转化为唯一的128位（16字节）哈希值。这个哈希值可以用来验证文件的完整性，即判断文件是否被篡改或损坏。

2024-07-26 17:24:27 4080

原创【Kettle数据采集的优化】

Kettle数据采集优化

2024-07-26 10:23:25 1327

原创【Kettle实现神通（数据库）MPP增量、全量数据ETL，同步任务Linux运行（通用）】

具体Kettle操作步骤不做过多介绍，主要技术方案说明，Kettle8.2版本放在底部链接提取，本次采用Kettle实现源端：神通数据通用库、目标端：神通MPP增量数据同步，并在服务器端运行Job。

2024-07-25 16:07:57 1103 1

原创【互联网金融湖仓一体建设实践】

MC 数仓对外表的计算效率虽然低于内表，但是湖到仓的数据抽取只需要执行一次，后续仓内计算效率是Hive 的5倍以上，仓内建模加工效率也是Spark的2倍左右。认证信息、HDFS 读写服务，可以读取 HMS 的 Hive 表元数据，将。1）用户的数据湖不能满足数仓的多租户、安全隔离、Serverless、2）创建OSS和VPC中的Hadoop实例的外部服务对象，将数据。将OSS目录数据识别为表的结构，MC可以读取DLF探查的OSS元。不冗余存储DLF或HMS的元数据，不冗余存储OSS或HDFS的数。

2024-07-11 10:42:34 932

原创【Hive的架构组成】

【Hive的架构组成】

2024-07-11 10:23:00 426

原创【ROMA解决方案和功能架构】

1、基于ROMA融合集成平台，实现企业应用、数据、API 、OT设备、云服务、合作伙伴应用之间的集成连接。2、ROMA主要包含四个组件：数据集成（Fast Data Integration，简称FDI）、服务集成（API Connect，简称APIC）、消息集成（Message Queue Service，简称MQS）、设备集成（LINK）。

2024-04-23 10:33:25 2864 1

原创【Python创建专属二维码】

【代码】【Python创建专属二维码】

2024-04-23 10:20:24 322

原创【你发现了吗？其实你早就变了一个人】

你发现了吗？其实你早就变了一个人！不信你看看现在的自己。总有一天你会笑着说出哪些令你痛苦的事情！

2024-04-15 08:22:20 227

原创【Spark性能调优-配置进程参数】

（2）将“spark-defaults.conf”中的“spark.executor.memory”配置项或者“spark-env.sh”中的“SPARK_EXECUTOR_MEMORY”配置项设置为合适大小。（2）将“spark-defaults.conf”中的“spark.executor.cores”配置项或者“spark-env.sh”中的“SPARK_EXECUTOR_CORES”配置项设置为合适大小。（1） Driver负责任务的调度，和Executor、AM之间的消息通信。

2024-04-09 17:48:04 762

原创 20240401寄语

生活不简单，尽量简单过。时间就是一颗药，你掌握好了它便是解药，你肆意挥霍它，便是毒药。不喧，不吵，静静地守着岁月。不怨，不悔，淡淡地对待自己。别紧张，深呼吸，坚持住，扛过去！

2024-04-01 11:40:42 214

转载【Flink技术原理构造及特性】

Flink是一个批处理和流处理结合的统一计算框架，其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理，是业界最顶级的开源流处理引擎。Flink最适合的应用场景是低时延的数据处理（Data Processing）场景：高并发pipeline处理数据，时延毫秒级，且兼具可靠性。

2024-04-01 11:26:09 1298

原创神舟通用-神通MPP

政府、军队、军工、金融（银行、保险、证券）、电信、航天、邮政、能源（电力、煤炭、石油、天然气）、互联网、交通运输、制造业、教育、医疗医药、农林水利、环保、烟草、物流、税务、审计、原材料、城建、文化、旅游、服务业、材料、化工、矿产等面向海量数据联机分析业务提供数据仓库支持。采用行列混合压缩存储引擎，通过压缩机制降低系统存储采购成本，提供多级的压缩机制，加载后数据不膨胀，压缩状态下查询性能不下降，为系统节省存储空间。具有行式存储引擎、列式存储引擎、行列混合存储引擎，可根据不同业务场景选择适应的存储方式。

2024-03-13 11:11:05 829

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

windows-jdk1.8

ES ARM架构服务器版本安装包

mysql8版本jdbc驱动包

华为MRS产品文档详细参考

Kettle 3.0用户手册（详细）

神通（MPP）数据库-开发手册（详细）

通用简历模板（精品设计）

【linux安装部署jdk1.8】

Redis单机部署6.2.6版本

数据资产盘点模板（逻辑，物理）

PPT模板通用，项目汇报、作图

jdk1.8-linux

服务器配置bond详细操作

神通数据库/MPP-Python解释器模块

空空如也