一种增量数据加工处理方法在大数据治理过程中的应用

最新推荐文章于 2025-09-30 22:53:18 发布

原创最新推荐文章于 2025-09-30 22:53:18 发布 · 1.5k 阅读

0 ·

CC 4.0 BY-SA版权

Hive 同时被 2 个专栏收录

51 篇文章

订阅专栏

Hadoop

44 篇文章

订阅专栏

该博客围绕数据治理展开，介绍了现有基于Hadoop仓库和Mysql数据库的数据加工方法的不足，如未体现数据变化、未发挥Hadoop能力、增加安全隐患等。提出基于Hadoop大数据平台和Mysql数据库的数据更新操作，通过新流程建设和分层结构，提升了数据推送效率和安全性，职责更清晰。

技术交底书

交底书名称	一种增量数据加工处理方法在大数据治理过程中的应用
发明人（可以多个）
第一发明人身份证号码
交底书撰写人
电话&手机
Email	yuai@jd.com
交底书提交日期	2019-03-15
所属部门	集团数据资产管理部

交底书注意事项：

1、代理人并不是技术专家，交底书要使代理人能看懂，尤其是背景技术和详细技术方案，一定要写得全面、清楚。

2、交底书中出现的英文缩写，必须配上中文译文及英文全称。

3、全文对同一事物的叫法应统一，避免一种事物前后出现多种叫法。

4、在后续与专利代理人进行沟通时，对于代理人的疑问应认真讲解，要求补充的材料应及时补充。

5、专利法规定，专利必须是一个技术方案，应该阐述发明目的是通过什么技术方案来实现的，不能只有技术原理，也不能只做功能或优点的宣传式介绍。

相关技术背景（背景技术），与本发明最相近的现有实现方案（现有技术）

1.1　背景技术

（技术领域、应用场景等）

随着数据仓库建设，尤其是大数据时代数据仓库的建设越来越引起公司领导层的重视，而且深刻体会到数据治理在大数据应用中的重要作用，为此我司提出对全集群数据资产进行治理工作，为了更好的体现数据治理的基本逻辑和功能，我们提出打通数据源和数据应用产品之间的关联关系，制作血缘关系，构建生态化的大数据资产管理平台，呈现相关的公司集团源数据信息。本方案主要应用在收集公司数据到推送数据到mysql数据库的一种数据加工方法，志在为前端应用服务器提供更准确的数据，提高前端用户页面的访问速度，极大的提升用户体验。

1.2 与本发明相关的现有技术（作为本发明基础的，且帮助理解本发明公知技术内容）

数据加工层：基于Hadoop仓库构建前端服务器需要的数据

数据推送层：经过数据中间件sqoop 推送数据到mysql数据库中

数据应用层：为数据应用服务器提供数据

1.2.1 现有技术的技术方案：

（对于方法，应说明现有方法的步骤；对于装置，应当说明结构组成及其连接关系。）

在通常的应用中，会把数据加工层加工完成后的数据按照每天一次的频率直接推送到mysql 数据库中，数据应用服务器只能对前端数据进行展示，不能修改，降低了用户的体验程度。

现有技术的流程也相对简单：

应用数据库

全量数据

Hadoop 大数据平台

全量数据全量数据

源数据A

源数据B

1.2.2 现有技术的缺点

以因果关系推理的方式推导出现有技术的缺点是什么？注意，本发明不能解决的缺点不必写；且所述缺点应当是技术上的缺点，例如带宽占用高、误码率高、反应速度慢等。

现在数据加工结构过于简单，没有体现哪些是新增的数据，哪些是变化的数据，哪些是将要被删除的数据，还有哪些数据是在前端被修改过的数据
没有体现Hadoop集群强大的计算能力和存储能力
每次都对mysql应用数据库进行清表处理，增加了安全隐患

2、本发明技术方案的详细阐述（发明内容）

2.1 本发明所要解决的技术问题（发明目的）

（客观评价现有技术的缺点是什么，然后针对这些缺点基于本发明能解决的问题写出发明目的）

本发明志在提高数据治理的质量，并增加产品的通用性，提出的一种基于Hadoop大数据平台和Mysql数据库的数据更新操作，从而提升用户体验。

2.2 本发明提供的完整技术方案

本发明技术方案的详细阐述，应该结合流程图、原理图、电路图、时序图进行说明。本部分为专利申请最重要部分，要求尽量详细、清楚。发明中每一功能的实现都要有相应的技术方案；所有英文缩写都应有中文注释；所有附图都应该有详细的文字描述，以别人不看附图即可明白技术方案为准；同时附图中的关键词或方框图中的注释都尽量用中文；方法专利都应该提供流程图，并提供相关的系统装置。对于机械结构，请给出机械结构图，并详细说明和现有技术相比的改进点所在，阐明其功能和效果。硬件电路或电子设备，请给出电路原理图，并详细阐明信号流向，说明其原理、功能和效果；软件或算法方案，请给出流程图，并用文字对流程图作详细地描述，阐明流程图每一步骤的输入输出。涉及复杂技术内容的，还需要进一步对该技术的原理、功能和效果作详细阐述。

2.2.1 新流程建设

基于对数据的研究和奔着解决问题，提升服务的目标下，我们提出新的数据加工流程

应用数据库

数据应用层

数据增量层

增量数据

Hadoop 大数据平台

全量数据全量数据

源数据A

源数据B

2.2.2 数据流程说明

在Hadoop大数据平台，保留所有的历史数据，每天的数据建设一个数据分区，体现Hadoop平台的数据存储优越性，存储便宜，并且安全，降低了数据遗失的概率。

1. 在Hadoop 大数据平台层不是仅仅对数据源A和数据源B的整合操作，整合完成后通过今天的全量的数据跟昨天的全量数据做交叉比对，计算出那些个数据是今日新增的，那些个数据是今日更新的，那些个数据从今天的数据分区里面删除了，并将体现数据变化的字段命名为is_changed 。

该字段的码值介绍：

数据状态	未变数据	新增数据	更新数据	删除数据
码值	0	1	2	3

2.将有更新变化的数据通过Sqoop数据插件推送到应用数据库的数据增量层，并同时触发mysql数据库的Trigger触发器，对应用数据库的数据应用层根据不同的码值对该层中的数据进行数据库操作。

3.同时为了支持前端数据的修改功能，在应用数据库的数据应用层提供数据冗余功能，也就是如果前端用户对某条记录数据进行了修改，我们需要单独的一个字段（user_changed[0:原始数据，1:修改过的数据 ]）对该数据进行标注，对用户标注过的该条数据不在进行数据更新和删除操作，也就是对上述的步骤2中触发Trigger时候需要进行数据判断。

2.3 本发明技术方案带来的有益效果

客观评价且尽量简短，特别是此处要对应于1.2.2中提及的缺点，说明相对于现有技术的改进和提升。