技术交底书
交底书名称 |
一种增量数据加工处理方法在大数据治理过程中的应用 |
发明人(可以多个) |
|
第一发明人身份证号码 |
|
交底书撰写人 |
|
电话&手机 |
|
|
yuai@jd.com |
交底书提交日期 |
2019-03-15 |
所属部门 |
集团数据资产管理部 |
交底书注意事项:
1、代理人并不是技术专家,交底书要使代理人能看懂,尤其是背景技术和详细技术方案,一定要写得全面、清楚。
2、交底书中出现的英文缩写,必须配上中文译文及英文全称。
3、全文对同一事物的叫法应统一,避免一种事物前后出现多种叫法。
4、在后续与专利代理人进行沟通时,对于代理人的疑问应认真讲解,要求补充的材料应及时补充。
5、专利法规定,专利必须是一个技术方案,应该阐述发明目的是通过什么技术方案来实现的,不能只有技术原理,也不能只做功能或优点的宣传式介绍。
- 相关技术背景(背景技术),与本发明最相近的现有实现方案(现有技术)
1.1 背景技术
(技术领域、应用场景等)
随着数据仓库建设,尤其是大数据时代数据仓库的建设越来越引起公司领导层的重视 ,而且深刻体会到数据治理在大数据应用中的重要作用,为此我司提出对全集群数据资产进行治理工作,为了更好的体现数据治理的基本逻辑和功能,我们提出打通数据源和数据应用产品之间的关联关系,制作血缘关系,构建生态化的大数据资产管理平台,呈现相关的公司集团源数据信息。本方案主要应用在收集公司数据到推送数据到mysql数据库的一种数据加工方法,志在为前端应用服务器提供更准确的数据,提高前端用户页面的访问速度,极大的提升用户体验。
1.2 与本发明相关的现有技术(作为本发明基础的,且帮助理解本发明公知技术内容)
数据加工层:基于Hadoop仓库构建前端服务器需要的数据
数据推送层:经过数据中间件sqoop 推送数据到mysql数据库中
数据应用层:为数据应用服务器提供数据
1.2.1 现有技术的技术方案:
(对于方法,应说明现有方法的步骤;对于装置,应当说明结构组成及其连接关系。)
在通常的应用中,会把数据加工层加工完成后的数据按照每天一次的频率直接推送到mysql 数据库中,数据应用服务器只能对前端数据进行展示 ,不能修改,降低了用户的体验程度。
现有技术的流程也相对简单:
应用数据库 |
全量数据
Hadoop 大数据平台 |
全量数据 全量数据
源数据A |
源数据B
|
1.2.2 现有技术的缺点
以因果关系推理的方式推导出现有技术的缺点是什么?注意,本发明不能解决的缺点不必写;且所述缺点应当是技术上的缺点,例如带宽占用高、误码率高、反应速度慢等。
- 现在数据加工结构过于简单,没有体现哪些是新增的数据,哪些是变化的数据,哪些是将要被删除的数据,还有哪些数据是在前端被修改过的数据
- 没有体现Hadoop集群强大的计算能力和存储能力
- 每次都对mysql应用数据库进行清表处理,增加了安全隐患
2、本发明技术方案的详细阐述(发明内容)
2.1 本发明所要解决的技术问题(发明目的)
(客观评价现有技术的缺点是什么,然后针对这些缺点基于本发明能解决的问题写出发明目的)
本发明志在提高数据治理的质量,并增加产品的通用性,提出的一种基于Hadoop大数据平台和Mysql数据库的数据更新操作,从而提升用户体验。
2.2 本发明提供的完整技术方案
本发明技术方案的详细阐述,应该结合流程图、原理图、电路图、时序图进行说明。本部分为专利申请最重要部分,要求尽量详细、清楚。发明中每一功能的实现都要有相应的技术方案;所有英文缩写都应有中文注释;所有附图都应该有详细的文字描述,以别人不看附图即可明白技术方案为准;同时附图中的关键词或方框图中的注释都尽量用中文;方法专利都应该提供流程图,并提供相关的系统装置。对于机械结构,请给出机械结构图,并详细说明和现有技术相比的改进点所在,阐明其功能和效果。硬件电路或电子设备,请给出电路原理图,并详细阐明信号流向,说明其原理、功能和效果;软件或算法方案,请给出流程图,并用文字对流程图作详细地描述,阐明流程图每一步骤的输入输出。涉及复杂技术内容的,还需要进一步对该技术的原理、功能和效果作详细阐述。
2.2.1 新流程建设
基于对数据的研究和奔着解决问题,提升服务的目标下,我们提出新的数据加工流程
应用数据库
|
数据应用层 |
数据增量层 |
增量数据
Hadoop 大数据平台 |
全量数据 全量数据
源数据A |
源数据B
|
2.2.2 数据流程说明
在Hadoop大数据平台,保留所有的历史数据 ,每天的数据建设一个数据分区,体现Hadoop平台的数据存储优越性,存储便宜,并且安全,降低了数据遗失的概率。
1. 在Hadoop 大数据平台层不是仅仅对数据源A和数据源B的整合操作 ,整合完成后通过今天的全量的数据跟昨天的全量数据做交叉比对,计算出那些个数据是今日新增的,那些个数据是今日更新的,那些个数据从今天的数据分区里面删除了,并将体现数据变化的字段命名为is_changed 。
该字段的码值介绍:
数据状态 |
未变数据 |
新增数据 |
更新数据 |
删除数据 |
码值 |
0 |
1 |
2 |
3 |
2.将有更新变化的数据通过Sqoop数据插件推送到应用数据库的数据增量层,并同时触发mysql数据库的Trigger触发器,对应用数据库的数据应用层根据不同的码值对该层中的数据进行数据库操作。
3.同时为了支持前端数据的修改功能,在应用数据库的数据应用层提供数据冗余功能,也就是如果前端用户对某条记录数据进行了修改,我们需要单独的一个字段(user_changed[0:原始数据,1:修改过的数据 ])对该数据进行标注,对用户标注过的该条数据不在进行数据更新和删除操作,也就是对上述的步骤2中触发Trigger时候需要进行数据判断。
2.3 本发明技术方案带来的有益效果
客观评价且尽量简短,特别是此处要对应于1.2.2中提及的缺点,说明相对于现有技术的改进和提升。
- 本发明较之前的保证了数据的安全性 ,同时数据更新对前端用户无感知是完全透明的。
- 在向应用数据库推送数据时有全量变成了增量,提升了推送的效率。
- 同时整个体系架构采用分层结构,职责更加清晰同时更容易管理。
2.4 本发明的关键点和欲保护点是什么?
2.2部分提供的是为完成一定功能的完整技术方案,在本部分则是精炼后整理出的技术方案的关键创新点,撰写人可以采用列出1、2、3…的方式,以明确提醒代理人注意,便于专利代理人快速理解方案、抓住方案重点和关键,以及便于代理人撰写专利文件中的权利要求书。
- 基于数据治理,提出全新的数据处理方案
- 构建分层数据模式,保证数据的安全性;
2.5 针对2.4中的技术方案,是否还有别的替代方案同样能完成发明目的?
(可选)如果有,请尽量写明,此部分内容的提供可以扩大专利的保护范围,防止他人绕过本技术去实现同样的发明目的。所述替代可以是部分结构、器件、方法步骤的替代,也可以是完整的技术方案。
2.6 交底书中专业技术领域的技术术语的名词解释
(可选)如果文中使用的部分技术术语相对生僻或并非广为人知,可以进行简要介绍,说明其所属技术领域、应用场景、作用和效果等。